Conocer los diferentes tipos de índice de búsqueda en Data 360
Objetivos de aprendizaje
Después de completar esta unidad, podrá:
- Describir los índices de búsqueda compatibles con Data 360.
- Identificar el índice de búsqueda que se debe crear para su caso de uso.
Utilizar la búsqueda en Data 360 para nutrir a la IA
Al proporcionar a la IA datos específicos de los clientes, se mejora el valor de la IA generativa en aplicaciones, análisis y herramientas de automatización en la Salesforce Platform. A la IA se le pueden proporcionar datos sin estructurar, semiestructurados o estructurados. Al utilizar la solicitud del usuario para recuperar los datos de CRM pertinentes para nutrir al modelo de IA, aplicaciones como Agentforce, Tableau y Flow Builder, se garantiza que los resultados se ajusten con precisión al propósito de los usuarios. Utilice la búsqueda en Data 360 para garantizar contenido generado por IA preciso pertinente, perspectivas más profundas a partir de análisis y flujos de trabajo automatizados más eficaces para sus equipos y clientes.
En Data 360 puede crear índices de búsqueda para cualquier dato, incluidos los datos sin estructurar de las bases de conocimientos. Data 360 es compatible con los siguientes tipos de índice de búsqueda.
- Índice de búsqueda vectorial
- Índice de búsqueda híbrida
- Índice de búsqueda enriquecida
Para crear índices de búsqueda en Data 360, incorpore sus datos a Data 360. Data 360 ingiere datos sin estructurar, los asigna a objetos de modelo de datos (DMO) estándar o a objetos de modelo de datos sin estructurar (UDMO) y crea contenido significativo y fragmentado a partir de esos datos. A continuación, Data 360 crea incrustaciones de vectores para generar un índice de búsqueda que ayude a las aplicaciones a conocer las similitudes semánticas y léxicas con los datos.
Seleccionar un tipo de índice de búsqueda
Antes de decidir qué tipo de índice de búsqueda es más adecuado para su caso de uso y conjunto de datos específicos, vamos a profundizar primero en las diferencias entre ellos y en el tipo de resultado de solicitudes de búsqueda en la respuesta más pertinente.
Índice de búsqueda vectorial
La búsqueda vectorial, también conocida como búsqueda semántica, implica recuperar datos (o fragmentos de datos) que se parecen semánticamente para una consulta de búsqueda. Entre estos datos pueden incluirse vídeos, audios y transcripciones de llamadas. La recuperación de la búsqueda vectorial se realiza mediante la fragmentación de los datos, creando así incrustaciones de vectores y buscando incrustaciones de vectores que tengan similitudes semánticas con la consulta de búsqueda.

La búsqueda vectorial es apropiada para consultas de búsqueda extensas en las que los usuarios buscan información general. La consulta de búsqueda recupera datos con una puntuación de búsqueda vectorial alta que se correlacionan con las coincidencias semánticas más cercanas.
Por ejemplo, esta es una consulta que busca información sobre cómo funciona el navegador Google Chrome. La solicitud de búsqueda recupera fragmentos con la puntuación de búsqueda vectorial más alta, que se relacionan con la coincidencia semántica más cercana de la solicitud de búsqueda.
Consulta:
select c.Chunk_c, v.score_c from vector_search(table(WikiArticle_c_vector_search_2_index__dlm), 'how does Google Chrome internet browser work', '', 100) as v join WikiArticle_c_vector_search_2_ chunk_dlm as c on v.SourceRecordId_c=c.RecordId_c ORDER by v.score_c desc limit 3;
Resultado:

Índice de búsqueda híbrida
La búsqueda híbrida combina el potencial de la búsqueda vectorial semánticamente consciente con la capacidad de la búsqueda de palabras clave de gestionar el vocabulario del dominio. La búsqueda híbrida combina la información recuperada de ambos tipos de búsqueda y, a continuación, clasifica los resultados con una función de clasificación combinada a fin de mostrar la información más relevante.
La función de clasificación combinada de la búsqueda híbrida predeterminada se optimiza con marcadores internos para una variedad de tareas basadas en la búsqueda. Los datos de formación y evaluación se basan en solicitudes capturadas de la búsqueda de Einstein y aplicaciones de IA generativa, como Einstein Search Answers.

La búsqueda híbrida es una buena opción para solicitudes de búsqueda extensas en las que se incluyen términos de búsqueda específicos. La solicitud de búsqueda recupera datos con una puntuación de búsqueda de palabras clave alta que se correlacionan con las coincidencias de palabras clave exactas y una puntuación de búsqueda vectorial alta que se correlacionan con las coincidencias semánticas más cercanas. De esta manera, se recuperan datos con una puntuación de búsqueda híbrida alta que se correlacionan con los resultados de la búsqueda más relevantes.
Para el mismo ejemplo de solicitud que se ha utilizado para la búsqueda vectorial, la búsqueda de palabras clave promueve posiciones más altas de la clasificación para que el contenido sea más relevante y, por consiguiente, el LLM cuente con información más detallada.
Consulta:
select c.Chunk__c, h.hybrid_score__c, h.keyword_score__c, h.vector_score__c from hybrid_search(table(WikiArticle_c_hybrid_search_2_index__dlm), 'how does Google Chrome internet browser work ?', '', 100) as h join WikiArticle_c_hybrid_search_2_chunk__dlm as c on h.SourceRecordId__c=c.RecordId__c ORDER by h.hybrid_score__c desc limit 2;
Resultado:

Índice de búsqueda enriquecida
Se enriquecen segmentos de contenido estándar con metadatos adicionales y segmentos de preguntas a fin de mejorar un índice de búsqueda vectorial o un índice de búsqueda híbrida para la generación aumentada por recuperación (RAG).
La extracción automática de metadatos, que incluye palabras clave, entidades, descripciones generales de temas, respuestas a preguntas según el contenido y resúmenes de contenido a partir de segmentos de contenido, mejora en gran medida la precisión de la recuperación. Este enriquecimiento generado por LLM actúa a modo de alternativa para la elaboración manual de contenido, por lo que resulta mucho más sencillo para los agentes de IA identificar la información más relevante a la hora de responder preguntas.
Para usarlo, debe activar los segmentos enriquecidos cuando cree un índice de búsqueda vectorial o un índice de búsqueda híbrida. Al crear el índice de búsqueda, Data 360 genera tres nuevos segmentos: uno sin formato que contiene el texto original, otro que contiene el texto de los metadatos y otro que contiene las preguntas que puede responder el segmento. Cree recuperadores en modelos de IA para los índices de búsqueda enriquecida. Utilice los recuperadores en plantillas de solicitud y agentes para la RAG y los flujos de trabajo de agentes.
Veamos un ejemplo de consulta para un índice de búsqueda híbrida enriquecida que incluye los segmentos enriquecidos en los resultados.
Consulta:
SELECT
"RagFileUDMO_Enriched_chunk"."Chunk__c" AS "Chunk",
"searchFunc"."hybrid_score__c" AS "hybrid_score__c",
"searchFunc"."SourceChunks__c" AS "SourceChunks__c",
"searchFunc"."ChunkProcessingType__c" AS "ChunkProcessingType__c",
"RagFileUDMO_Enriched_chunk"."ChunkType__c" AS "ChunkType__c"
FROM (
SELECT * FROM hybrid_search(TABLE("RagFileUDMO_Enriched_index__dlm"),
'What is the purpose of Multi-Terrain Select system?', 'ChunkProcessingType__c
= ''PLAIN''', 10)
UNION
SELECT * FROM hybrid_search(TABLE("RagFileUDMO_Enriched_index__dlm"),
'What is the purpose of Multi-Terrain Select system?', 'ChunkProcessingType__c
= ''QUESTION''', 10)
UNION
SELECT * FROM hybrid_search(TABLE("RagFileUDMO_Enriched_index__dlm"),
'What is the purpose of Multi-Terrain Select system?', 'ChunkProcessingType__c
= ''METADATA''', 10)
) AS "searchFunc"
INNER JOIN "RagFileUDMO_Enriched_chunk__dlm" AS "RagFileUDMO_Enriched_chunk"
ON "RagFileUDMO_Enriched_chunk"."RecordId__c" = "searchFunc"."RecordId__c"
INNER JOIN "RagFileUDMO__dlm" AS "RagFileUDMO"
ON "RagFileUDMO"."FilePath__c" =
"RagFileUDMO_Enriched_chunk"."SourceRecordId__c"
AND "RagFileUDMO"."KQ_FilePath__c" IS NOT DISTINCT FROM
"RagFileUDMO_Enriched_chunk"."KQ_SourceRecordId__c"
ORDER BY "searchFunc"."hybrid_score__c" DESCResultado:

El uso de esta función en Data Cloud consume créditos flexibles. Para obtener más información, consulte Consideraciones sobre facturación para índices enriquecidos. Póngase en contacto con su ejecutivo de cuentas para obtener más información.
Resumen
Cree índice de búsqueda en Data 360 para nutrir a la IA con datos sin estructurar, semiestructurados y estructurados de su organización.
Seleccione el tipo de búsqueda que le venga mejor para las solicitudes de búsqueda de sus usuarios finales y aplicaciones. Si las consultas de los usuarios son principalmente sobre información general o contienen más de cinco palabras, una búsqueda vectorial sería suficiente para esta situación. La búsqueda vectorial proporciona resultados pertinentes cuando una consulta de un usuario tiene contenido contextual, que son normalmente solicitudes más extensas.
Para conseguir los resultados más precisos y pertinentes que combinen coincidencias de búsqueda semántica y coincidencias de búsqueda de palabras clave para una solicitud, cree un índice de búsqueda híbrida.
Puede enriquecer los índices de búsqueda con metadatos adicionales y segmentos de preguntas donde la precisión de recuperación más alta ofrece un valor tangible para compensar los costes elevados que implica la generación de segmentos adicionales mediante LLM.
