生成 AI の機能を調べる
学習の目的
この単元を完了すると、次のことができるようになります。
- 他のモデルと比較した生成 AI モデルの品質を説明する。
- AI 言語モデルの主要用語を定義する。
- 言語モデルを使用する生成 AI の機能を説明する。
注目を集める人工知能
ここ最近、人工知能 (AI) に関する議論が盛んに行われていることにお気付きだと思います。その盛り上がりには圧倒されそうです。なぜこれほどまでに関心が高まっているのでしょうか? AI は決して新しいものではなく、多くの企業や機関は長年、何らかの形で AI を活用してきました。AI が突然注目されるようになったのは、間違いなく ChatGPT と呼ばれる、他の AI できないことを可能にする AI を搭載したチャットボットが登場したためです。
ChatGPT は、わかりやすい言葉で質問や要求に返答でき、その返答はまるで人間が書いたかのような出来栄えです。また、一般に公開されたことで、人々はコンピューターと会話するということがどのようなものかを直接体験できる可能性があります。これは驚きであり、奇妙であり、刺激的でもありました。これでは、注目を集めるようになったのも当然ですね。
[stability.ai の DreamStudio で、「デスクの前の椅子に座っている幸せそうなロボット。デスクに置かれたラップトップコンピューター。2D ベクトルのイラストのスタイルで描かれている」というプロンプトで AI が生成した画像。]
人間のような自然な会話ができる AI は、これまでの AI とは明らかに違います。「人工知能の基礎」バッジで説明されているように、AI モデルが実行するようにトレーニングされる特定のタスクは多数あります。たとえば、市場データを使用して、3 ベッドルームの家の最適な販売価格を予測するように、AI モデルをトレーニングできます。これは見事な成果ですが、そのモデルが生成するのは「単なる」数字です。それとは対照的に、AI モデルの中には、これまで読んだことも見たことも聞いたこともないような、驚くほど多様なテキスト、画像、音声を生成できるものがあります。この種の AI は、生成 AI と呼ばれ、職場内外で大きな変化をもたらす可能性を秘めています。
このバッジでは、生成 AI モデルが実行するようにトレーニングされるタスクの種類、またトレーニングの背後にあるテクノロジーのいくつかを学びます。また、このバッジでは、生成 AI のエコシステムにおいて、企業がどのように専門分野に集まっているかを詳しく説明します。最後に、企業が生成 AI に対して抱いている懸念についていくつか説明します。
言語モデルの可能性
生成 AI は今話題になっている新しいもののように思われるかもしれませんが、実際には研究者は何十年も生成 AI モデルをトレーニングしてきました。ここ数年で、ニュースになったものさえあります。Nvidia という企業が人間の顔写真そっくりの画像をランダムに生成できる AI モデルを発表したときの 2018 年の記事を覚えている人もいるかもしれません。その画像には驚くほど説得力がありました。完璧ではありませんでしたが、会話のきっかけになったことは間違いありません。生成 AI は徐々に人々の意識に浸透していきました。
研究者が特定の種類の画像を作成できる AI に取り組む一方で、他の研究者は言語に関連する AI に注力し、テキストの解釈を含むあらゆる種類のタスクを実行する AI モデルをトレーニングしていました。たとえば、ある商品のレビューを肯定的、否定的、どちらでもないに分類したいとします。これは、日常的に使用される単語がどのように組み合わされているかを理解することが必要なタスクであり、専門家が自然言語処理 (NLP) と呼ぶものを示す良い例です。言語を「処理」する方法は非常に多いため、NLP は AI の大まかなカテゴリを表しています。(NLP の詳細については、「自然言語処理の基本」を参照してください。)
NLP を実行する一部の AI は膨大な量のデータ、この場合は実際の人間が書いたテキストのサンプルでトレーニングされます。何億もの Web ページがあるインターネットは、サンプルデータのすばらしいソースです。このような膨大なデータでトレーニングされた AI モデルは、大規模言語モデル (LLM) と呼ばれます。LLM は、人間が何年もかけて学習する言語ルールを驚くほど詳細に捉えます。このような大規模言語モデルでは、信じられないほど高度な言語関連タスクが実行可能になります。
要約: ある文章が与えられ、すべての単語がどのように組み合わされて要点を構成しているかを理解していれば、おそらく同じアイデアを表現するために文章を書き直すことができます。AI モデルは構文のルールを把握しており、どの単語を他の単語と入れ替えることができるかを学習しているため、再構成することもできます。段落全体を 1 つか 2 つの文にまとめることも、再構成の一種にすぎません。この種の AI による要約は、実社会で非常に役立ちます。1 時間の録音からミーティングのメモを作成したり、科学論文の要約を記述したりすることができる。究極のエレベーターピッチ生成ツールなのです。
翻訳: LLM は、言語が単語を組み立ててアイデアにする方法に関するルールのコレクションのようなものです。それぞれの言語には独自のルールがあります。英語では通常、形容詞を名詞の前に置きますが、フランス語ではその逆です。AI の翻訳機能は両方のルールセットを学習するようにトレーニングされています。そのため、文を再構成するとき、AI は同じアイデアを表現するために 2 つ目のルールを使用できます。これで、すばらしい翻訳が完成します。また、プログラミング言語も言語です。プログラミング言語にも独自のルールセットがあり、AI は緩やかな命令セットを実際のコードに翻訳することができます。専用の便利なプログラム機能によって、多くの人々にさまざまなチャンスが広がります。
エラーの修正: 最も経験豊富な書き手でさえ、まれに文法やスペルのミスをすることがあります。今や、AI が誤りを検出 (場合によっては自動修正) してくれます。また、エラーの修正は、誰かが話しているのをただ聞いているときにも重要です。騒がしい環境にいると単語をいくつか聞き逃すしてしまうことがありますが、人は文脈を使用してそのギャップを埋めているのです。AI はこれも実行でき、字幕のような音声テキスト変換タスクをより正確に行うことができます。
質問応答: これは生成 AI が脚光を浴びるきっかけとなったタスクです。ChatGPT のような AI には、質問や要求の意図を解釈する能力があります。そのため、要求に基づいて大量のテキストを生成することができます。たとえば、ウィリアム・シェイクスピアの最も有名な 3 つの作品をそれぞれ 1 文で要約してほしいと頼むと、次のようになります。
「ロミオとジュリエット」- 反目しあう 2 つの名家に生まれた若い恋人たちの愛がその早過ぎる死を招く悲劇的な物語。
「ハムレット」- 父の亡霊に取り憑かれた王子が復讐や生と死という実存的な問いに苦悩する物語。
「マクベス」- 妻の野心に突き動かされた貴族が、王位奪取のために血なまぐさい殺人に手を染めて倒れる野望と道徳的な堕落の冷酷なドラマ。
このように、まるで国語の先生と話しているかのように、ハムレットについての詳しい情報を求めて会話を続けることが可能です。こういったやり取りは、簡単な要求でジャストインタイムの情報を得ることのできる好例です。
ガイド付き画像生成: LLM は画像生成モデルと併用することができ、希望する画像を説明すると、AI が作成しようとしてくれます。「古城の窓辺に立つジュリエットの 2D 線画による描写」を依頼した場合の例は以下のようになります。ロミオとジュリエットに関する説明や画像はインターネット上に非常に多数あるため、AI ジェネレーターには適切な画像を推測するためにそれ以上の情報は必要ありませんでした。
[stability.ai の DreamStudio を使用し、「古城の窓辺に立つジュリエットの 2D 線画による描写」というプロンプトで AI が生成した画像。]
ガイド付き画像生成に関連して、AI モデルの中には既存の画像に新しいコンテンツを追加できるものもあります。たとえば、画像の境界線を拡張することで、AI が元の画像のコンテキストに基づいて表示されそうなコンテンツを描画できるようになります。
テキスト読み上げ: AI が単語の列を画像に変換できるのと同様に、テキストを音声に変換できる AI モデルがあります。人が話している音声サンプルを分析できるモデルがあり、その人特有の話し方を学習し、テキストを新しい音声に変換する際に再現することができます。たまたま聞いている人には、違いはほとんどわかりません。
このような例は、新しいテキスト、画像、音声を作成するために LLM がどのように使用されているかを示すほんの一部です。言語のしくみを理解することに依存するほぼすべてのタスクは、AI で増強できます。仕事にも遊びにも使用できる、信じられないほど強力なツールですね。
画期的な予測
生成 AI が実行可能なタスクの概要を理解できましたが、ここではっきりさせておくことが重要な点があります。生成 AI が生成するテキストは、実際には予測の一形態にすぎません。家の価値を予測するのではなく、読み手にとって意味と関連性がありそうな一連の単語を予測します。
この予測は確かに画期的ですが、それはコンピューターが「考えている」ことを示しているのではありません。質問されたトピックについて意見があるわけでも、独自の意図や願望があるわけでもありません。それでも意見を持っているように感じられるとすれば、それは返答として予想される内容について最善の予測が行われているためです。たとえば、「コーヒーと紅茶のどちらが好きですか」と誰かに尋ねると、ある種の予想される返答を引き出すことになります。十分にトレーニングされたモデルは、どのような種類の飲み物が欲しいのかということがコンピューターにとって何の意味もなくても、返答を予測できます。
次の単元では、生成 AI を可能にするテクノロジーのいくつかについて学習します。
リソース