大規模言語モデルデータマスキングについて学ぶ
学習の目的
この単元を完了すると、次のことができるようになります。
- 大規模言語モデル (LLM) から機密情報をマスキングする重要性を説明する。
- Einstein Trust Layer の機能について説明する。
始める前に
Einstein Trust Layer について説明し、プロンプトビルダーを使用したプロンプトテンプレートの作成を確認する、次のコンテンツを修了することを推奨します。
大規模言語モデルデータマスキングの概要
生成 AI テクノロジーでデータを保護することは、困難な場合があります。Einstein Trust Layer は、データマスキングを使用して、機密情報がサードパーティの大規模言語モデル (LLM) に公開されるのを防ぎます。そのため、LLM データマスキングという名称が付いています。このプロセスについて詳しく学習しましょう。
LLM データマスキングのしくみ
検出とマスキングのプロセス
Einstein Trust Layer は、高度なパターンマッチングと機械学習の技法を使用して、プロンプト内の機密データを検出します。特定されると、このデータはマスクされます。つまりプレースホルダーテキストに置き換えられます。たとえば、Jim という名前がプロンプトテキスト内の最初の人物名であるとします。Jim は <Person_0> に置き換えられます。プロンプト内の実際のデータをプレースホルダーテキストに置き換えることで、Einstein Trust Layer は機密の詳細が LLM に公開されないようにします。
LLM のデータマスキングはエージェントでは無効になっています。「Data Masking and Agents (データマスキングとエージェント)」を参照してください。Einstein サービス返信や Einstein 作業概要などの埋め込み型生成 AI 機能ではデータマスキングを使用できるため、Einstein Trust Layer の設定画面で設定できます。
マスク解除
LLM から生成された応答を受信した後、Einstein Trust Layer はマスクされたデータを元の形式に戻します。マスク解除により、表示される応答が正確で、かつ現在のタスクに関連性のあるもにになります。
データマスキングの準備方法
データマスキングを設定する前に、生成 AI によってビジネスやユースケースに生じるデータセキュリティおよびプライバシーのリスクを評価します。LLM データマスキングによって緩和される主要リスクの 1 つは、データ漏洩です。データ漏洩は、顧客名、クレジットカード番号、社会保障番号などの個人情報や機密情報がサードパーティの LLM に公開されることによって発生する可能性があります。
Salesforce は、Open AI や Azure Open AI などのサードパーティの LLM プロバイダーに対して、ゼロデータ保持ポリシーを適用しています。つまり、プロンプトを通じて送信されたデータは LLM によって保持されません。ただし、ゼロデータ保持ポリシーが適用されていても、機密データが LLM に公開されないように確認することをお勧めします。
リスク評価を行い、リスク許容度を判断するためのリスクプロファイル作成に役立つ質問を見てみましょう。
- 現在どのようなガバナンスおよびセキュリティポリシーを使用していますか?
- あなたの会社は、一般データ保護規則 (GDPR) や支払いカード業界のデータセキュリティ標準 (PCI DSS) のようなデータ取り扱い規制の対象となっていますか? これらの規制の中には、特定の機密データの種別を LLM に公開することを禁止するものもあります。
- どのようなデータレジデンシー要件がありますか?
- グローバル企業の場合、どの国または地域のデータを保護する必要がありますか?
- 関連性があり有用な応答を生成するために、プロンプトのグラウンディングに機密データは必要ですか?
- AI アプリケーションのどのようなユースケースがありますか? これらのユースケースでは、プロンプトに機密データが含まれますか?
リスクと緩和策についての詳細とリスクプロファイルの作成については、「AI + データ: プロジェクト計画を作成する」を参照してください。
また、特定の種別のデータをマスクすることの影響や、生成される応答の品質への影響も考慮します。特定のユースケースとテストが、データセキュリティと応答の品質の適切なバランスを見極める鍵となります。
影響をよりよく理解するために、いくつかの例を見てみましょう。
- プロンプトテキスト内で、Amazon アプリをデバイスにダウンロードする手助けを LLM に求めます。ただし、Amazon は会社名であるため、LLM にはマスクされます。LLM はどのアプリをダウンロードする必要があるのかを理解できず、有用な応答を提供できません。
- プロンプトテキスト内で、販売注文を要約するよう LLM に依頼します。販売注文は 10 桁の番号で、米国の電話番号と似たパターンを持っています。その結果、LLM はプロンプトを LLM に送信する前に電話番号のプライバシーを保護するため、販売注文がマスクされます。このため、LLM は不正確または役に立たない応答を生成する可能性があります。
Einstein Trust Layer の使用方法
設定の手順については、次の単元で詳しく説明します。ここでは、デフォルトで有効になっている機能と、さらにカスタマイズできる内容について理解を深めましょう。
Einstein Trust Layer
Einstein AI を Data 360 と連携して設定すると、特定の種別の機密データに対して LLM データマスキングがデフォルトで有効になります。これにより、機密データの安全を簡単に確保できます。デフォルト設定を確認し、組織のガバナンスポリシーや規制要件に従って更新することができます。
データマスキング処理を追跡するために、Einstein Trust Layer はこれらのアクションを監査履歴の一部として Data 360 のログに記録します。事前作成済みダッシュボードを使用してデータのマスキングやマスク解除を確認したり、カスタムレポートやダッシュボードを作成したりすることも可能です。
サポートされるデータ入力と言語
Einstein Trust Layer は、会社名、クレジットカード番号、メールアドレスなど、さまざまな種別のデータのマスキングをサポートしています。これらの入力は複数の言語でサポートされており、国際的な業務でもデータマスキング要件を遵守できます。サポートされるデータの種別と言語についての詳細は、ヘルプ記事「Einstein Trust Layer Region and Language Support (Einstein Trust Layer の地域と言語のサポート)」を参照してください。
この単元では、データマスキングの重要性と、それが Einstein Trust Layer にどのように関連しているかを学びました。次の単元では、Einstein Trust Layer でのデータマスキングの設定方法と、プロンプトビルダーで実行時にデータマスキングを表示する方法を学習します。
