Présentation des types d’index de recherche dans Data Cloud
Objectifs de formation
Une fois cette unité terminée, vous pourrez :
- Décrire les index de recherche pris en charge dans Data Cloud
- Identifier l’index de recherche à créer pour votre cas d’utilisation
Utilisation de la recherche dans Data Cloud pour ancrer l’IA
L’ancrage de l’IA avec des données propres au client améliore la valeur de l’IA générative dans les applications, les analyses et les outils d’automatisation sur Salesforce Platform. L’ancrage de l’IA peut être réalisé avec des données non structurées, semi-structurées ou structurées. En utilisant la requête utilisateur afin de récupérer les données CRM pertinentes pour ancrer le modèle IA, des applications comme Agentforce, Tableau et Flow Builder garantissent que les sorties sont parfaitement adaptées à l’intention de vos utilisateurs. Utilisez la recherche dans Data Cloud afin de garantir la précision et la pertinence du contenu généré par IA, acquérir des connaissances plus approfondies à partir des analyses et améliorer l’efficacité des workflows d’automatisation pour vos équipes et vos clients.
Dans Data Cloud, vous pouvez faire reposer des index de recherche sur n’importe quelles données, y compris les données non structurées des bases de connaissances. Data Cloud prend en charge les types d’index de recherche suivants :
- Recherche vectorielle
- Recherche hybride
Pour créer des index de recherche dans Data Cloud, importez vos données dans Data Cloud. Data Cloud ingère des données non structurées, les mappe à des objets modèle de données standard ou à des objets modèle de données non structurés, et crée des segments de contenu significatifs à partir des données. Data Cloud crée ensuite des plongements de vecteur pour créer un index de recherche qui aide les applications à comprendre les similitudes sémantiques et lexicales avec les données.
Sélection d’un type de recherche
Avant de décider quel type de recherche est le mieux adapté à votre cas d’utilisation et à votre ensemble de données spécifiques, examinons d’abord en quoi ces types de recherches diffèrent les uns des autres et quel type de requêtes de recherche génère la réponse la plus pertinente.
Recherche vectorielle
La recherche vectorielle, également connue sous le nom de recherche sémantique, consiste à récupérer des données (ou des segments de données) similaires sur le plan sémantique pour une requête de recherche donnée. Ces données peuvent également inclure des vidéos, de l’audio et des transcriptions d’appels. La récupération par recherche vectorielle s’effectue via la segmentation des données, la création de plongements vectoriels et la recherche de plongements vectoriels qui présentent des similitudes sémantiques étroites avec la requête de recherche.
La recherche vectorielle fonctionne bien pour les requêtes de recherche longues dans lesquelles les utilisateurs recherchent des informations générales. La requête de recherche récupère les données qui ont un score de recherche vectorielle élevé, qui est corrélé aux correspondances sémantiques les plus proches.
Par exemple, voici une requête cherchant des informations sur le fonctionnement du navigateur Google Chrome. La requête de recherche récupère les segments qui ont le score de recherche vectorielle le plus élevé qui se rapporte à la correspondance sémantique la plus proche de la requête de recherche.
Requête :
select c.Chunk_c, v.score_c from vector_search(table(WikiArticle_c_vector_search_2_index__dlm), 'how does Google Chrome internet browser work', '', 100) as v join WikiArticle_c_vector_search_2_ chunk_dlm as c on v.SourceRecordId_c=c.RecordId_c ORDER by v.score_c desc limit 3;
Conséquence :
Recherche hybride
La recherche hybride combine les atouts de la recherche vectorielle sémantique avec la capacité de la recherche par mot-clé à gérer le vocabulaire du domaine. La recherche hybride fusionne les informations récupérées à partir des deux types de recherches, puis classe les résultats à l’aide d’une fonction de classement par fusion pour afficher les informations les plus pertinentes.
La fonction par défaut de classement par fusion de la recherche hybride est optimisée sur des benchmarks internes pour une variété de tâches basées sur la recherche. Les données de formation et d’évaluation sont basées sur des requêtes réelles capturées à partir d’applications de recherche Einstein et d’IA générative, comme les réponses de recherche Einstein.
La recherche hybride est une excellente option pour les requêtes de recherche longues dans lesquelles des termes de recherche spécifiques sont également inclus. La requête de recherche récupère des données qui ont un score de recherche par mot-clé élevé corrélé à des correspondances de mot-clé exactes et un score de recherche vectorielle élevé corrélé aux correspondances sémantiques les plus proches. Cela permet de récupérer des données avec un score de recherche hybride élevé, qui est corrélé aux résultats de recherche les plus pertinents.
Pour l’exemple de requête que nous avons utilisé pour la recherche vectorielle, la recherche par mot-clé favorise des positions de classement plus élevées pour un contenu plus pertinent, offrant ainsi au LLM un meilleur ancrage.
Requête :
select c.Chunk__c, h.hybrid_score__c, h.keyword_score__c, h.vector_score__c from hybrid_search(table(WikiArticle_c_hybrid_search_2_index__dlm), 'how does Google Chrome internet browser work ?', '', 100) as h join WikiArticle_c_hybrid_search_2_chunk__dlm as c on h.SourceRecordId__c=c.RecordId__c ORDER by h.hybrid_score__c desc limit 2;
Conséquence :
Récapitulatif
Créez des index de recherche dans Data Cloud pour ancrer l’IA avec les données non structurées, semi-structurées ou structurées de votre organisation.
Sélectionnez un type de recherche qui convient le mieux aux requêtes de recherche de vos utilisateurs finaux et de vos applications. Si les requêtes de vos utilisateurs portent principalement sur des informations générales ou si les requêtes sont longues (plus de cinq mots), une recherche vectorielle est suffisante. La recherche vectorielle fournit des résultats pertinents lorsqu’une requête utilisateur a un contenu contextuel, correspondant généralement à des requêtes plus longues.
Pour obtenir les résultats les plus précis et les plus pertinents qui combinent à la fois les correspondances de recherche sémantique et les correspondances de recherche par mot-clé pour une requête, créez un index de recherche hybride.
Ressources
- Aide Salesforce : Données non structurées dans Data Cloud
- Aide Salesforce : Recherche vectorielle
- Aide Salesforce : Recherche hybride
- Article du blog des ingénieurs Salesforce : Comment la recherche hybride dans Data Cloud combine la recherche vectorielle et par mot-clé pour améliorer l’expérience de recherche