Skip to main content
3 月 5 日~ 6 日にサンフランシスコで開催される TDX (Salesforce+ でも配信) で「Developer Conference for the AI Agent Era (AI エージェント時代に向けた開発者向けカンファレンス)」にぜひご参加ください。お申し込みはこちら

生成 AI のテクノロジーエコシステムを理解する

学習の目的

この単元を完了すると、次のことができるようになります。

  • 生成 AI の迅速な開発に影響する主要コンポーネントを特定する。
  • 生成 AI のテクノロジースタックを構成するテクノロジーの種類を説明する。
  • 生成 AI について企業が抱く一般的な懸念について説明する。

生成 AI のトレーニングの大幅な強化

生成 AI は、非常に短いと思われる期間で多くの能力を獲得しました。信じられないほど速いペースでの改善は、主に 3 つの大きな要因によるものです。1 つ目は、膨大な量のトレーニングデータが利用可能になったことです。前の単元で説明したとおり、インターネット上の 10 億を超える Web ページは、文章サンプルの優れたソースです。ただし、データは利用する方法があってこそ価値があります。そこで 2 つ目の大きな変化である、より適切なトレーニングが必要になります。

「人工知能の基礎」で説明されているように、研究者は AI モデルをトレーニングするために高度な数学を使用するニューラルネットワークを設計します。ニューラルネットワークのアーキテクチャは、常に進歩している研究分野です。2017 年、Google の研究者たちは、大規模言語モデルのトレーニングに関する画期的な論文を発表し、トランスフォーマーと呼ばれる新しい AI アーキテクチャを提案しました。ご想像のとおり、研究の詳細はかなり複雑です。簡単に (大幅に) 言うと、この新しいアーキテクチャは、テキストのブロック内で単語がどれだけ離れて表示されていても、単語間の重要な関係を識別できます。また、多数の単語を処理した後も、そのつながりを保持することができます。

新しいトランスフォーマーアーキテクチャにより、生成 AI の急速な進歩の 3 つ目の主要要因である計算能力を活用できるようになりました。AI モデルのトレーニングを支える計算を行うには、大量の処理能力が必要です。従来、AI モデルは一連の計算を 1 つずつ実行することが求められる方法で設計されてきました。それとは異なり、トランスフォーマーアーキテクチャでは多数の独立した同時計算が使用されます。

そのため、あるコンピュータープロセッサーが最初の計算を行い、同時に別のプロセッサーが 2 番目の計算を行うことができます。これは並列計算と呼ばれ、トランスフォーマーのトレーニングに要する時間を大幅に短縮することができます。その上、近年、並列計算の実行が可能なプロセッサーはいっそう強力になり、機能も充実しています。

このようにデータ、アーキテクチャ、計算という 3 つの要因が一体となり、非常に高性能な大規模言語モデルのトレーニングに適した条件が実現されています。最大の LLM の 1 つが GPT (Generative Pre-Trained Transformer の略) 言語モデルです。つまり、テキスト関連のコンテンツを生成するために使用できる、すでにトレーニングされたモデルです。

エコシステムの出現

現在、インターネット上には、アクセスして生成 AI を実際に試すことができるサイトがすでに何百もあります。そのようなサイトを訪れると、テクノロジーの氷山の一角にいることになります。そのテクノロジーは、さまざまなソースからもたらされます。すばらしい生成 AI エクスペリエンスを一般の人々に提供することを可能にするテクノロジースタックの構成を見てみましょう。

テクノロジー企業によるこの繁栄しているエコシステムは、ここ数年の間に驚異的なスピードで成長を遂げています。ある特定のセグメントに特化する企業もあります。たとえば、基盤モデル領域では、自社を差別化するために、より優れたパフォーマンスを発揮する新しいモデルのトレーニングに注力することも可能です。また、テクノロジースタックの複数のレイヤーにまたがるソリューションを作成し、アプリケーションに使用するための独自の LLM を作成する企業もあります。

多くの企業は、AI で何ができるかを理解し始めたばかりです。AI テクノロジーに対するかつてないほどの需要を考えると、AI テクノロジースタックのさまざまなレベルにおいて企業が成功するチャンスはいくらでもあります。

生成 AI に関する共通の懸念

生成 AI は、コンピューターとやり取りする方法において多くの変化をもたらそうとしています。どのような破壊的なテクノロジーでも、その限界と懸念の原因を理解することが重要です。生成 AI に関する主な懸念を次にいくつか挙げます。

ハルシネーション

生成 AI は予測の一種にすぎず、予測が間違っている場合があることを忘れないでください。事実に基づく予想された返答とは異なる生成 AI の予測は、幻覚と呼ばれています。これが発生する原因はいくつかあります。たとえばトレーニングデータが不完全だったり、偏っていたりする場合やモデルが適切に設計されていない場合です。したがって、AI が生成したテキストについては、その内容が事実に照らして正しいことを時間をかけて確認してください。

データセキュリティ

企業は、生成 AI のライフサイクルの 2 つの時点で独自のデータを共有できます。1 つ目は、基盤モデルを微調整するときです。2 つ目は、実際にモデルを使用して機密データを含む要求を処理するときです。AI サービスを提供する企業は、信頼が最も重要であること、およびデータが常に保護されることを実証する必要があります。

剽窃

通常、LLM や画像生成用の AI モデルは一般に公開されているデータでトレーニングされます。そのため、モデルがスタイルを学習し、そのスタイルを複製するという可能性あります。基盤モデルを開発する企業は、生成されたコンテンツにバリエーションを加えるための対策を講じる必要があります。また、場合によっては、コンテンツ作成者の要求に応じて、トレーニングデータを選定してサンプルを削除する必要もあります。

ユーザーなりすまし

AI が生成した画像を使用して、真実味のあるオンラインプロファイルを作成することは、かつてないほど簡単になっています。このような偽ユーザーは、非常に現実的な方法で、実際のユーザー (および他の偽ユーザー) とやり取りすることができます。そのため、企業は独自のボットコンテンツを宣伝するボットネットワークを特定しにくくなっています。

サステナビリティ

AI モデルのトレーニングに必要な計算能力は膨大であり、演算を行うプロセッサーは実行するために多くの電力を必要とします。モデルが大きくなればなるほど、カーボンフットプリントも多くなります。幸いなことに、いったんモデルがトレーニングされると、要求を処理するのに必要な電力は比較的少なくて済みます。また、再生可能エネルギーも AI の普及とほぼ同じスピードで拡大しています。

まとめ

生成 AI は、あらゆる種類の言語ベースのタスクにおいて、企業も個人も同様にサポートすることができます。大量のデータ、巧妙な AI アーキテクチャ、膨大な計算能力の融合により、生成 AI の開発と AI エコシステムの成長に拍車がかかっています。

リソース

Salesforce ヘルプで Trailhead のフィードバックを共有してください。

Trailhead についての感想をお聞かせください。[Salesforce ヘルプ] サイトから新しいフィードバックフォームにいつでもアクセスできるようになりました。

詳細はこちら フィードバックの共有に進む