Conheça os tipos de índices de pesquisa no Data 360

Objetivos de aprendizagem

Após concluir esta unidade, você estará apto a:

Descrever os índices de pesquisa compatíveis no Data 360.
Identificar qual índice de pesquisa criar para o seu caso de uso.

Usar a pesquisa no Data 360 para fundamentar a IA

Fundamentar a IA em dados específicos do cliente valoriza a IA generativa em aplicativos, análises e ferramentas de automação em toda a Salesforce Platform. É possível fundamentar a IA com dados não estruturados, semiestruturados ou estruturados. Ao usar a consulta do usuário para recuperar os dados relevantes do CRM para fundamentar o modelo de IA, aplicativos como Agentforce, Tableau e Flow Builder garantem que os resultados sejam otimizados de acordo com a intenção dos usuários. Use a pesquisa no Data 360 para garantir conteúdos precisos e relevantes gerados por IA, insights aprofundados a partir de análise e fluxos de trabalho de automação mais eficientes para suas equipes e clientes.

No Data 360, você pode criar índices de pesquisa com base em qualquer tipo de dados, incluindo dados não estruturados em bases de conhecimento. O Data 360 é compatível com os seguintes tipos de índice de pesquisa.

Índice de pesquisa de vetor
Índice de pesquisa híbrido
Índice de pesquisa enriquecido

Para criar índices de pesquisa no Data 360, importe seus dados para o Data 360. O Data 360 ingere dados não estruturados, mapeia-os para objetos de modelo de dados (DMO) padrão ou objetos de modelo de dados não estruturados (UDMO) e cria blocos de conteúdo relevantes a partir dos dados. Em seguida, o Data 360 cria integrações de vetor que permitam criar um índice de pesquisa que ajude os aplicativos a compreender as semelhanças semânticas e lexicais com os dados.

Para saber as definições de integrações de vetor e de outros termos do Data 360, consulte Glossário de termos do Data 360.

Selecionar um tipo de índice de pesquisa

Antes de decidir qual tipo de índice de pesquisa é mais adequado para seu caso de uso e conjunto de dados específicos, vamos primeiro analisar como esses tipos de pesquisa diferem entre si e que tipo de consultas de pesquisa produzem a resposta mais relevante.

Índice de pesquisa de vetor

A pesquisa de vetores, também conhecida como pesquisa semântica, envolve a recuperação de dados (ou blocos de dados) semanticamente semelhantes para uma determinada consulta de pesquisa. Esses dados também podem incluir vídeos, áudio e transcrições de chamadas. A recuperação da pesquisa de vetores é feita formando blocos de dados, criando integrações de vetor e pesquisando integrações de vetor com semelhanças semânticas próximas à consulta de pesquisa.

A pesquisa de vetores funciona bem para consultas de pesquisa longas, em que os usuários procuram informações gerais. A consulta de pesquisa recupera dados com uma pontuação de pesquisa de vetores elevada que se correlaciona com as correspondências semânticas mais próximas.

Por exemplo, aqui está uma consulta que procura informações sobre como funciona o navegador Google Chrome. A consulta de pesquisa recupera os blocos com a pontuação de pesquisa de vetores mais alta, que se relaciona com a correspondência semântica mais próxima da consulta de pesquisa.

Consulta:

select c.Chunk_c, v.score_c from vector_search(table(WikiArticle_c_vector_search_2_index__dlm),
 'how does Google Chrome internet browser work', '', 100) as v join WikiArticle_c_vector_search_2_
chunk_dlm as c on v.SourceRecordId_c=c.RecordId_c ORDER by v.score_c desc limit 3;

Resultado:

Índice de pesquisa híbrido

A pesquisa híbrida combina os pontos fortes da pesquisa de vetores semanticamente consciente com a capacidade de pesquisa por palavra-chave para lidar com o vocabulário do domínio. A pesquisa híbrida combina as informações recuperadas de ambos os tipos de pesquisa e, em seguida, classifica os resultados usando uma função de classificação por fusão para mostrar as informações mais relevantes.

A função padrão de classificação por fusão da pesquisa híbrida é otimizada em parâmetros internos para várias tarefas baseadas em pesquisa. Os dados de treinamento e avaliação são baseados em consultas reais capturadas do Einstein Search e de aplicativos de IA generativa, como o Einstein Search Answers.

A pesquisa híbrida é uma ótima opção para consultas de pesquisa longas, em que também são incluídos termos de pesquisa específicos. A consulta de pesquisa recupera dados com uma pontuação de pesquisa por palavra-chave elevada, que se correlaciona com correspondências exatas de palavras-chave, e com uma pontuação de pesquisa de vetores elevada, que se correlaciona com as correspondências semânticas mais próximas. Isso resulta na recuperação de dados com uma pontuação de pesquisa híbrida elevada, que se correlaciona com os resultados de pesquisa mais relevantes.

Para o mesmo exemplo de consulta que usamos para a pesquisa de vetores, a pesquisa por palavra-chave promove posições de classificação mais altas para conteúdos mais relevantes, proporcionando assim ao LLM uma fundamentação melhor.

Consulta:

select c.Chunk__c, h.hybrid_score__c, h.keyword_score__c, h.vector_score__c from
hybrid_search(table(WikiArticle_c_hybrid_search_2_index__dlm), 'how does Google Chrome
internet browser work ?', '', 100) as h join WikiArticle_c_hybrid_search_2_chunk__dlm
as c on h.SourceRecordId__c=c.RecordId__c ORDER by h.hybrid_score__c desc limit 2;

Resultado:

Para a mesma consulta no exemplo do Google Chrome usado, a pesquisa híbrida é muito mais eficaz do que uma pesquisa de vetores pura, pois retorna blocos que incluem informações sobre como os navegadores funcionam e detalhes específicos sobre o navegador Google Chrome.

Índice de pesquisa enriquecido

Enriqueça os blocos de conteúdo padrão com metadados adicionais e blocos de perguntas para aprimorar um índice de pesquisa de vetor ou um índice de pesquisa híbrido para geração aumentada por recuperação (RAG).

A extração automática de metadados, incluindo palavras-chave, entidades, visões gerais de tópicos, perguntas respondidas pelo conteúdo e resumos de conteúdo a partir dos blocos de conteúdo aumenta significativamente a precisão da recuperação. Esse enriquecimento gerado pelo LLM atua como uma alternativa à seleção manual facilitando muito a identificação, por agentes de IA, das informações mais relevantes ao responder perguntas.

Para usá-lo, ative os blocos enriquecidos ao criar um índice de pesquisa de vetor ou um índice de pesquisa híbrido. Ao criar o índice de pesquisa, o Data 360 gera três novos blocos: um bloco simples que contém o texto original do bloco, um bloco que contém o texto dos metadados e um bloco que contém as perguntas que o bloco pode responder. Crie recuperadores em AI Models (Modelos de IA) para índices de pesquisa enriquecidos. Use os recuperadores em modelos de prompts e agentes para RAG e fluxos de trabalho de agentes.

Agora, vejamos um exemplo de consulta para um índice de pesquisa híbrido enriquecido que inclui os blocos enriquecidos nos resultados.

Consulta:

SELECT
      "RagFileUDMO_Enriched_chunk"."Chunk__c" AS "Chunk",
	  "searchFunc"."hybrid_score__c" AS "hybrid_score__c",
      "searchFunc"."SourceChunks__c" AS "SourceChunks__c",
      "searchFunc"."ChunkProcessingType__c" AS "ChunkProcessingType__c",
      "RagFileUDMO_Enriched_chunk"."ChunkType__c" AS "ChunkType__c"
  FROM (
      SELECT * FROM hybrid_search(TABLE("RagFileUDMO_Enriched_index__dlm"),
  'What is the purpose of Multi-Terrain Select system?', 'ChunkProcessingType__c
   = ''PLAIN''', 10)
      UNION
      SELECT * FROM hybrid_search(TABLE("RagFileUDMO_Enriched_index__dlm"),
  'What is the purpose of Multi-Terrain Select system?', 'ChunkProcessingType__c
   = ''QUESTION''', 10)
      UNION
      SELECT * FROM hybrid_search(TABLE("RagFileUDMO_Enriched_index__dlm"),
  'What is the purpose of Multi-Terrain Select system?', 'ChunkProcessingType__c
   = ''METADATA''', 10)
  ) AS "searchFunc"
  INNER JOIN "RagFileUDMO_Enriched_chunk__dlm" AS "RagFileUDMO_Enriched_chunk"
      ON "RagFileUDMO_Enriched_chunk"."RecordId__c" = "searchFunc"."RecordId__c"
  INNER JOIN "RagFileUDMO__dlm" AS "RagFileUDMO"
      ON "RagFileUDMO"."FilePath__c" =
  "RagFileUDMO_Enriched_chunk"."SourceRecordId__c"
      AND "RagFileUDMO"."KQ_FilePath__c" IS NOT DISTINCT FROM
  "RagFileUDMO_Enriched_chunk"."KQ_SourceRecordId__c"
  ORDER BY "searchFunc"."hybrid_score__c" DESC

Resultado:

O uso desse recurso no Data Cloud consome Créditos flexíveis. Para obter mais informações, consulte Considerações de faturamento para índice enriquecido. Entre em contato com seu executivo de conta para saber mais.

Em resumo

Crie índices de pesquisa no Data 360 para fundamentar a IA nos dados não estruturados, semiestruturados ou estruturados da sua organização.

Selecione um tipo de pesquisa que seja mais adequado para as consultas de pesquisa dos seus usuários finais e aplicativos. Se as consultas dos seus usuários forem principalmente sobre informações gerais ou forem longas (tiverem mais de cinco palavras), então uma pesquisa de vetores é suficiente para esse cenário. A pesquisa de vetores produz resultados relevantes quando a consulta do usuário tem conteúdo contextual, o que geralmente ocorre em consultas mais longas.

Para obter os resultados mais precisos e relevantes que combinam correspondências de pesquisa semântica e correspondências de pesquisa por palavra-chave para uma consulta, crie um índice de pesquisa híbrido.

Enriquecer os índices de pesquisa com outros metadados e blocos de perguntas onde uma maior precisão de recuperação proporciona um valor mensurável que compensa os custos mais elevados envolvidos na geração de blocos adicionais utilizando Grandes modelos de linguagem (LLMs).

Tempo estimado

Tópicos

Procurando ajuda?

Data 360 Recursos

Conheça os tipos de índices de pesquisa no Data 360

Objetivos de aprendizagem

Usar a pesquisa no Data 360 para fundamentar a IA

Selecionar um tipo de índice de pesquisa

Índice de pesquisa de vetor

Índice de pesquisa híbrido

Índice de pesquisa enriquecido

Em resumo

Recursos