生成 AI のテクノロジーエコシステムを理解する

学習の目的

この単元を完了すると、次のことができるようになります。

生成 AI の迅速な開発に影響する主要コンポーネントを特定する。
生成 AI のテクノロジースタックを構成するテクノロジーの種類を説明する。
生成 AI について企業が抱く一般的な懸念について説明する。

生成 AI のトレーニングの大幅な強化

生成 AI は、非常に短いと思われる期間で多くの能力を獲得しました。信じられないほど速いペースでの改善は、主に 3 つの大きな要因によるものです。1 つ目は、膨大な量のトレーニングデータが利用可能になったことです。前の単元で説明したとおり、インターネット上の 10 億を超える Web ページは、文章サンプルの優れたソースです。ただし、データは利用する方法があってこそ価値があります。そこで 2 つ目の大きな変化である、より適切なトレーニングが必要になります。

「人工知能の基礎」で説明されているように、研究者は AI モデルをトレーニングするために高度な数学を使用するニューラルネットワークを設計します。ニューラルネットワークのアーキテクチャは、常に進歩している研究分野です。2017 年、Google の研究者たちは、大規模言語モデルのトレーニングに関する画期的な論文を発表し、トランスフォーマーと呼ばれる新しい AI アーキテクチャを提案しました。ご想像のとおり、研究の詳細はかなり複雑です。簡単に (大幅に) 言うと、この新しいアーキテクチャは、テキストのブロック内で単語がどれだけ離れて表示されていても、単語間の重要な関係を識別できます。また、多数の単語を処理した後も、そのつながりを保持することができます。

新しいトランスフォーマーアーキテクチャにより、生成 AI の急速な進歩の 3 つ目の主要要因である計算能力を活用できるようになりました。AI モデルのトレーニングを支える計算を行うには、大量の処理能力が必要です。従来、AI モデルは一連の計算を 1 つずつ実行することが求められる方法で設計されてきました。それとは異なり、トランスフォーマーアーキテクチャでは多数の独立した同時計算が使用されます。

そのため、あるコンピュータープロセッサーが最初の計算を行い、同時に別のプロセッサーが 2 番目の計算を行うことができます。これは並列計算と呼ばれ、トランスフォーマーのトレーニングに要する時間を大幅に短縮することができます。その上、近年、並列計算の実行が可能なプロセッサーはいっそう強力になり、機能も充実しています。

このようにデータ、アーキテクチャ、計算という 3 つの要因が一体となり、非常に高性能な大規模言語モデルのトレーニングに適した条件が実現されています。最大の LLM の 1 つが GPT (Generative Pre-Trained Transformer の略) 言語モデルです。つまり、テキスト関連のコンテンツを生成するために使用できる、すでにトレーニングされたモデルです。

エコシステムの出現

現在、インターネット上には、アクセスして生成 AI を実際に試すことができるサイトがすでに何百もあります。そのようなサイトを訪れると、テクノロジーの氷山の一角にいることになります。そのテクノロジーは、さまざまなソースからもたらされます。すばらしい生成 AI 体験を一般の人々に提供することを可能にするテクノロジースタックを調べてみましょう。

まずは、氷山の一番下に位置する計算ハードウェアプロバイダーから始めましょう。LLM のトレーニングには、たとえトランスフォーマーをトレーニングするとしても、途方もない量の計算能力が必要になります。また、トレーニング後のモデルを実際に使用するための要求を処理するためにも計算能力が必要になります。技術的には、AI モデルのトレーニングはどのような計算ハードウェアでも可能ですが、理想的なのは並列計算に優れたプロセッサーです。現在、AI 計算の最大手は Nvidia です。
次は、開発者がクラウドリリースモデルで計算ハードウェアを利用できるようにするクラウドプラットフォームです。開発者は特定のプロジェクトに適切な時間を割くことができ、プラットフォームは接続されたシステム全体に計算時間の要求を効率的に分散できます。Google、Amazon、Microsoft、Oracle は、この分野における主要なテクノロジープロバイダーです。
LLM などの AI モデルは次のレイヤーに位置します。このようなモデルは研究手法を駆使して入念に作成され、公開データと非公開データの組み合わせを使用してトレーニングされます。開発者はアプリケーションプログラミングインターフェース (API) を通じて LLM に接続することができるため、独自のアプリケーションで NLP の全機能を活用できます。トレーニング済みのアクセス可能な AI モデルは、一般に基盤モデルと呼ばれます。このモデルには API を通じてアクセスできるため、開発者は必要に応じて、ある基盤モデルから別の基盤モデルに簡単に切り替えることができます。基盤モデルの例として、GPT4、Claude、Stable Diffusion、LLaMA などがあります。
次のレイヤーはインフラストラクチャの最適化であり、より効率的で質の高いモデルトレーニングを実現するツールやサービスを提供することを目的としています。たとえば、サービスでは、トレーニングのために完璧に選定されたデータセットを提供したり、生成されたコンテンツの精度をテストするための分析を提供したりすることもできます。また、この時点で、基盤モデルを専門的な独自のデータで微調整することで、特定の企業のニーズをより満たすことも可能です。多くの企業がさまざま最適化サービスを提供しており、この領域は AI エコシステムにおいて活況を呈しています。
やっと、氷山の先端のアプリケーションに戻ってきました。あらゆる種類の開発者がアプリケーションの最適化サービスや基盤モデルを利用できます。すでに LLM を搭載したスタンドアロンツールや主流アプリケーション用のプラグインが登場しています。

AI テクノロジースタックの図

テクノロジー企業によるこの繁栄しているエコシステムは、ここ数年の間に驚異的なスピードで成長を遂げています。ある特定のセグメントに特化する企業もあります。たとえば、基盤モデル領域では、自社を差別化するために、より優れたパフォーマンスを発揮する新しいモデルのトレーニングに注力することも可能です。また、テクノロジースタックの複数のレイヤーにまたがるソリューションを作成し、アプリケーションに使用するための独自の LLM を作成する企業もあります。

多くの企業は、AI で何ができるかを理解し始めたばかりです。AI テクノロジーに対するかつてないほどの需要を考えると、AI テクノロジースタックのさまざまなレベルにおいて企業が成功するチャンスはいくらでもあります。

生成 AI に関する共通の懸念

生成 AI は、コンピューターとやり取りする方法において多くの変化をもたらそうとしています。どのような破壊的なテクノロジーでも、その限界と懸念の原因を理解することが重要です。生成 AI に関する主な懸念を次にいくつか挙げます。

幻覚: 生成 AI は予測の一種にすぎず、予測が間違っている場合があることを忘れないでください。事実に基づく予想された返答とは異なる生成 AI の予測は、幻覚と呼ばれています。これが発生する原因はいくつかあります。たとえばトレーニングデータが不完全だったり、偏っていたりする場合やモデルが適切に設計されていない場合です。したがって、AI が生成したテキストについては、その内容が事実に照らして正しいことを時間をかけて確認してください。

データセキュリティ: 企業は、生成 AI のライフサイクルの 2 つの時点で独自のデータを共有できます。1 つ目は、基盤モデルを微調整するときです。2 つ目は、実際にモデルを使用して機密データを含む要求を処理するときです。AI サービスを提供する企業は、信頼が最も重要であること、およびデータが常に保護されることを実証する必要があります。

剽窃: 通常、LLM や画像生成用の AI モデルは一般に公開されているデータでトレーニングされます。そのため、モデルがスタイルを学習し、そのスタイルを複製するという可能性あります。基盤モデルを開発する企業は、生成されたコンテンツにバリエーションを加えるための対策を講じる必要があります。また、場合によっては、コンテンツ作成者の要求に応じて、トレーニングデータを選定してサンプルを削除する必要もあります。

ユーザーなりすまし: AI が生成した画像を使用して、真実味のあるオンラインプロフィールを作成することは、かつてないほど簡単になっています。このような偽ユーザーは、非常に現実的な方法で、実際のユーザー (および他の偽ユーザー) とやり取りすることができます。そのため、企業は独自のボットコンテンツを宣伝するボットネットワークを特定しにくくなっています。

持続可能性: AI モデルのトレーニングに必要な計算能力は膨大であり、演算を行うプロセッサーは実行するために多くの電力を必要とします。モデルが大きくなればなるほど、カーボンフットプリントも多くなります。幸いなことに、いったんモデルがトレーニングされると、要求を処理するのに必要な電力は比較的少なくて済みます。また、再生可能エネルギーも AI の普及とほぼ同じスピードで拡大しています。

まとめ

生成 AI は、あらゆる種類の言語ベースのタスクにおいて、企業も個人も同様にサポートすることができます。大量のデータ、巧妙な AI アーキテクチャ、膨大な計算能力の融合により、生成 AI の開発と AI エコシステムの成長に拍車がかかっています。

ヘルプをお探しですか?

もっと探す

生成 AI のテクノロジーエコシステムを理解する

学習の目的

生成 AI のトレーニングの大幅な強化

エコシステムの出現

生成 AI に関する共通の懸念

まとめ

リソース