Alexa の使用開始
学習の目的
この単元を完了すると、次のことができるようになります。
- 音声が重要である理由を説明する。
- Alexa のコアコンポーネントを挙げる。
- Alexa と Alexa 対応デバイスの機能を説明する。
音声の効果
このモジュールの準備として、まず音声の効果について説明します。Amazon では、音声はコンピューティングの次の大きな革新を代表すると考えています。
ただし、私たちがコンピューターやテクノロジーとどのようにやりとりを行っているかを見てみると、通常は、手と目のみを使用してやりとりを行っています。
私たちが毎日使用するユーザーインターフェースが変化し続ける中で、音声インターフェースは次の進化です。コンピューティングの初期にはパンチカードがありました。これは、限られた文字によるインターフェースでした。次のステップは、テキストのみのグラフィカルユーザーインターフェース (GUI) でした。その後、マウスが導入され、さらに GUI が進化して、最新のオペレーティングシステムによる高度なレイアウトが次々と使用されるようになりました。90 年代には、インターネットと Web ページの爆発的な普及により、Web デザインが新しい最前線となりました。2000 年代前半にはスマートフォンが新しいタッチベースのインターフェースと共に登場しました。そして今、ニューラルネット、自然言語処理、音声認識の進化によって、音声ユーザーインターフェース (VUI) を使用できるようになりました。
VUI も時間と共に進化してきました。「フロントデスクは 1 を、ハウスキーピングは 2 を、ご予約は 3 を押してください。」だった時代から、ユーザーにとってより自然な会話的フローへと徐々に変化し、ユーザーはより簡潔かつ正確に要求を伝えられるようになりました。この進化は、会話型ユーザーインターフェースと呼ばれます。
音声インターフェースの使用
Alexa との一般的な対話を見てみましょう。Alexa が誰なのかご存じない方のために説明します。
Alexa とは、Amazon Echo ファミリーのデバイスやその他の Alexa 対応デバイスの頭脳部分です。Alexa を使用するのは質問をするのと同じぐらい簡単です。ただ質問するだけで Alexa がすぐに応答します。Alexa はクラウド内に存在していて、常によりスマートになり続けています。
話を戻すと、その会話は次のようになります。
典型的なユーザー: 「Alexa、今日は傘がいるかな?」
Alexa: 「今日はシアトルには雨が降るかもしれません。降水確率は 55% です。予想降水量は 3.5mm です。」
簡単な質問ですが、このレスポンスを得るには、さまざまなことが行われる必要があります。ちなみに、シアトルでは本当に雨がよく降ります。
そのしくみ
次の図は、Alexa が質問を聞いてレスポンスを返すときに行われる処理のエンドツーエンドフローの概要図です。
では詳しい説明を始めましょう。
ユーザーによるリクエスト
ユーザーがウェイクワード (この場合は Alexa を使用しています) を言うと、Echo の周りのライトリングが青く光ります。これは、Alexa が聞いていて、データをクラウドにストリーミングしていることを示しています。取得された音声は発話と呼ばれます。注意: ウェイクワードは次の言葉に変更することもできます: Echo、コンピューター、Amazon。
Amazon Alexa クラウド
発話がクラウドで受信されると、自動音声認識 (ASR) と自然言語理解 (NLU) を使用して一連のスピーチモデルが発話に適用され、ユーザーが何を求めていて、それをどこに転送するかが判断されます。前の例では、Alexa は、これは天気を確認するインテントであると判断しました。インテントは、インテントを処理するスキル別に登録されています。スキルにはいくつかのサンプル発話があり、Alexa はこれによってリクエストをどこに転送するかを判断できます。
サービス/スキル処理
スキルは Alexa Skills Kit を使用して作成されます。Alexa Skills Kit は、セルフサービス API、ツール、ドキュメント、コードサンプルのコレクションで、誰でもすばやく簡単に音声処理を構築できます。この例では、Alexa からインテントを受信したときに天気予報を確認するサービスをコールする AWS Lambda 関数があるとしましょう。
スキルは、AWS Lambda、Heroku、HTTPS を介して通信されるカスタム Web サービスなど、さまざまなオプションを使用して作成できます。スキルが、受信した Alexa リクエストをセキュアな方法で処理するように作成されていれば、どこでホストされていても、どの言語で記述されていてもかまいません。
レスポンス
次に、スキルは Alexa にレスポンスを返す必要があります。レスポンスには、Alexa が特定の方法で話すように形式設定されたテキストを含めることも、事前に録音した独自の音声ファイルを含めることもできます。豆知識: Alexa にレスポンスの一部として「Bazinga (やってやったぜ)」などと言わせたい場合、スピーチコンとよばれる機能を使用して実現できます。
レスポンスは、音声レスポンス以外のものにもできます。スキルでは、ユーザーにカードを返すことも指定できます。カードには、テキストと画像によって、音声レスポンスを補う追加コンテキストを含めることができます。カードには、Amazon Alexa アプリケーションからアクセスできます。Amazon Alexa アプリケーションは、Fire OS、Android、iOS、デスクトップ Web ブラウザーで使用できます。Echo Show の登場により、Display テンプレートと呼ばれるさらに高度なカードをユーザーに返すことができるようになりました。Display テンプレートでは、全幅画像、テキストのフロート表示、画像とテキストのリストなどがサポートされるため、高い柔軟性が実現できます。
Alexa は、サービスからのレスポンスを受信すると、結果のテキストを音声出力のために Echo に送信し、カードコンテンツをユーザーのデバイスに転送します。次に、Echo はテキスト読み上げエンジンを使用して、Alexa の声でレスポンスを読み上げます。
Alexa の機能
では、他に Alexa は何ができるのでしょうか? 他には何が Alexa と連携できるのでしょうか? Echo については前述しましたが、音声対応デバイスの市場は拡大しており、他にも多くの選択肢があります。
Alexa は、次のことによって生活をより簡単で楽しいものにします。
- 音楽とエンターテイメントのハンドフリー音声制御を提供する — 「Alexa、ファンキーな音楽をかけて。」
- ユーザーがキッチンで料理をしているときや、寝室でうたた寝をしているときに、時間を監視する — 「Alexa、タイマーを 20 分にセットして。」
- ユーザーの声によって、買い物リストや ToDo リストを管理する — 「Alexa、買い物リストに牛乳を追加して。」
- ユーザーがニュースや重要事項を把握できるようにする — 「Alexa、フラッシュニュースを聞かせて。」
- 照明、スイッチ、サーモスタットなどのスマートホームデバイスを制御する — 「Alexa、寝室を 22 度に設定して。」
- その他のさまざまなこと。
Alexa を使用できるデバイスは増え続けています。Alexa は、Echo デバイスに加えて、Amazon Tap、Fire TV などの Amazon デバイスやスマートフォンの Amazon ショッピングアプリケーションでユーザーの声を聞くことができます。Alexa Voice Service を使用すれば、ハードウェアメーカーは、マイクとスピーカーを備えた任意のデバイスに Alexa がユーザーと会話する機能を追加できます。
これで、Alexa とは何かということと、その連携についての概要を説明したので、次のセクションでは一歩下がって、音声インタラクションをどのように設計するかと、ソフトウェアで通常行う他の種類のインタラクションとの違いについて考えましょう。