Data 360의 검색 색인 유형 알아보기
학습 목표
이 유닛을 완료하면 다음을 수행할 수 있습니다.
- Data 360에서 지원되는 검색 색인을 설명합니다.
- 사용 사례에 맞는 검색 색인을 식별합니다.
Data 360의 검색을 통해 AI 그라운딩
고객별 데이터를 기반으로 AI를 그라운딩하면 Salesforce Platform 전반의 애플리케이션, 분석, 자동화 도구에서 생성형 AI의 가치를 향상시킬 수 있습니다. AI 그라운딩은 비정형, 반정형, 또는 정형 데이터를 사용하여 구현할 수 있습니다. Agentforce, Tableau, Flow Builder와 같은 애플리케이션은 사용자 쿼리를 사용하여 AI 모델의 기반이 되는 관련 CRM 데이터를 검색함으로써 사용자 의도에 맞는 세밀한 결과를 제공합니다. Data 360의 검색 기능을 사용하여 정확하고 관련성 높은 AI 생성 콘텐츠, 심층적인 분석 인사이트, 팀과 고객을 위한 더욱 효율적인 자동화 워크플로를 구현하세요.
Data 360에서는 기술 자료의 비정형 데이터를 비롯한 모든 데이터에 대한 검색 색인을 구축할 수 있습니다. Data 360은 다음과 같은 검색 색인 유형을 지원합니다.
- 벡터 검색 색인
- 하이브리드 검색 색인
- 보강된 검색 색인
Data 360에서 검색 색인을 구축하려면 데이터를 Data 360으로 가져와야 합니다. Data 360은 비정형 데이터를 수집하여 표준 데이터 모델 개체(DMO) 또는 비정형 데이터 모델 개체(UDMO)로 매핑하고 데이터를 기반으로 의미 있는 콘텐츠 청크를 생성합니다. 그런 다음 Data 360은 벡터 임베딩을 생성하여 애플리케이션이 데이터의 시맨틱 및 어휘적 유사성을 이해하는 데 도움이 되는 검색 색인을 구축합니다.
검색 색인 유형 선택
특정 사용 사례 및 데이터 집합에 가장 적합한 검색 색인 유형을 결정하기 전에, 먼저 이러한 검색 유형 간의 차이점과 가장 관련성 높은 응답을 생성하는 검색 쿼리 유형에 대해 살펴보겠습니다.
벡터 검색 색인
시맨틱 검색이라고도 하는 벡터 검색은 주어진 검색 쿼리에 대해 의미적으로 유사한 데이터(또는 데이터 청크)를 검색하는 것입니다. 이 데이터에는 비디오, 오디오 및 통화 기록도 포함될 수 있습니다. 벡터 검색은 데이터를 청크 단위로 나누고 벡터 임베딩을 생성한 후 검색 쿼리와 의미적으로 유사한 벡터 임베딩을 검색하는 방식으로 수행됩니다.

벡터 검색은 사용자가 일반적인 정보를 찾는 긴 형식의 검색 쿼리에 적합합니다. 검색 쿼리는 의미적으로 가장 유사한, 벡터 검색 점수가 높은 데이터를 검색합니다.
예를 들어, Google Chrome 브라우저의 작동 방식에 대한 정보를 찾는 쿼리는 다음과 같습니다. 이 검색 쿼리는 해당 검색 쿼리와 의미적으로 가장 유사한, 벡터 검색 점수가 가장 높은 청크를 검색합니다.
쿼리:
select c.Chunk_c, v.score_c from vector_search(table(WikiArticle_c_vector_search_2_index__dlm), 'how does Google Chrome internet browser work', '', 100) as v join WikiArticle_c_vector_search_2_ chunk_dlm as c on v.SourceRecordId_c=c.RecordId_c ORDER by v.score_c desc limit 3;
결과:

하이브리드 검색 색인
하이브리드 검색에는 의미 인식 벡터 검색의 장점과 도메인 어휘를 처리할 수 있는 키워드 검색의 기능이 결합되어 있습니다. 하이브리드 검색은 두 가지 검색 유형에서 가져온 정보를 결합한 후 퓨전 랭커 함수를 사용해 결과의 순위를 매겨 가장 관련성 높은 정보를 보여줍니다..
기본 하이브리드 검색 퓨전 랭커 함수는 다양한 검색 기반 작업에 대한 내부 벤치마크를 기반으로 최적화되었습니다. 훈련 및 평가 데이터는 Einstein Search Answers와 같은 Einstein 검색 및 생성형 AI 애플리케이션에서 실제로 수집된 쿼리를 기반으로 합니다.

하이브리드 검색은 특정 검색어도 포함된 긴 형식의 검색 쿼리에 적합한 옵션입니다. 검색 쿼리는 정확한 키워드 매칭과 관련된, 키워드 검색 점수가 높고 의미적으로 가장 유사한, 벡터 검색 점수가 높은 데이터를 검색합니다. 그 결과, 가장 관련성이 높은 검색 결과와 관련된, 하이브리드 검색 점수가 높은 데이터를 검색하게 됩니다.
벡터 검색에 사용한 동일한 쿼리 예시에서 키워드 검색은 관련성이 높은 콘텐츠에 더 높은 순위를 부여하여 LLM에 더 나은 기반을 제공합니다.
쿼리:
select c.Chunk__c, h.hybrid_score__c, h.keyword_score__c, h.vector_score__c from hybrid_search(table(WikiArticle_c_hybrid_search_2_index__dlm), 'how does Google Chrome internet browser work ?', '', 100) as h join WikiArticle_c_hybrid_search_2_chunk__dlm as c on h.SourceRecordId__c=c.RecordId__c ORDER by h.hybrid_score__c desc limit 2;
결과:

보강된 검색 색인
표준 콘텐츠 청크에 추가 메타데이터와 질문 청크를 더하여 벡터 검색 색인 또는 하이브리드 검색 색인의 검색 증강 생성(RAG) 기능을 향상시키세요.
키워드, 엔티티, 주제 개요, 콘텐츠에서 답변하는 질문, 콘텐츠 요약 등을 포함하는 메타데이터를 콘텐츠 청크에서 자동으로 추출하면 검색 정확도가 크게 향상됩니다. 이러한 LLM 생성을 통한 보강은 수동 큐레이션의 대안으로서, AI 에이전트가 질문에 답변할 때 가장 관련성이 높은 정보를 훨씬 쉽게 식별할 수 있게 합니다.
이 기능을 사용하려면 벡터 검색 색인 또는 하이브리드 검색 색인을 생성할 때 보강된 청크를 활성화하세요. 검색 색인을 구축하면 Data 360이 세 가지 새로운 청크를 생성합니다. 이는 각각 원본 청크 텍스트를 포함하는 일반 청크, 메타데이터 텍스트를 포함하는 청크, 해당 청크가 답변할 수 있는 질문을 포함하는 청크입니다. AI 모델에서 보강된 검색 색인용 검색기를 생성하세요. 프롬프트 템플릿과 RAG용 에이전트 및 에이전트 워크플로에서 검색기를 사용하세요.
이제 결과에 보강된 청크를 포함하는 보강된 하이브리드 검색 색인에 대한 샘플 쿼리를 살펴봅시다.
쿼리:
SELECT
"RagFileUDMO_Enriched_chunk"."Chunk__c" AS "Chunk",
"searchFunc"."hybrid_score__c" AS "hybrid_score__c",
"searchFunc"."SourceChunks__c" AS "SourceChunks__c",
"searchFunc"."ChunkProcessingType__c" AS "ChunkProcessingType__c",
"RagFileUDMO_Enriched_chunk"."ChunkType__c" AS "ChunkType__c"
FROM (
SELECT * FROM hybrid_search(TABLE("RagFileUDMO_Enriched_index__dlm"),
'What is the purpose of Multi-Terrain Select system?', 'ChunkProcessingType__c
= ''PLAIN''', 10)
UNION
SELECT * FROM hybrid_search(TABLE("RagFileUDMO_Enriched_index__dlm"),
'What is the purpose of Multi-Terrain Select system?', 'ChunkProcessingType__c
= ''QUESTION''', 10)
UNION
SELECT * FROM hybrid_search(TABLE("RagFileUDMO_Enriched_index__dlm"),
'What is the purpose of Multi-Terrain Select system?', 'ChunkProcessingType__c
= ''METADATA''', 10)
) AS "searchFunc"
INNER JOIN "RagFileUDMO_Enriched_chunk__dlm" AS "RagFileUDMO_Enriched_chunk"
ON "RagFileUDMO_Enriched_chunk"."RecordId__c" = "searchFunc"."RecordId__c"
INNER JOIN "RagFileUDMO__dlm" AS "RagFileUDMO"
ON "RagFileUDMO"."FilePath__c" =
"RagFileUDMO_Enriched_chunk"."SourceRecordId__c"
AND "RagFileUDMO"."KQ_FilePath__c" IS NOT DISTINCT FROM
"RagFileUDMO_Enriched_chunk"."KQ_SourceRecordId__c"
ORDER BY "searchFunc"."hybrid_score__c" DESC결과:

Data Cloud에서 이 기능을 사용하면 Flex 크레딧이 소모됩니다. 더 자세한 정보는 보강된 색인에 대한 청구 관련 사항에서 확인하세요. 자세한 내용은 계정 담당자에게 문의하세요.
요약
Data 360에서 검색 색인을 구축하여 조직의 비정형, 반정형, 또는 정형 데이터를 기반으로 AI를 그라운딩할 수 있습니다.
최종 사용자와 애플리케이션의 검색 쿼리에 가장 적합한 검색 유형을 선택하세요. 사용자의 쿼리가 주로 일반 정보에 관한 것이거나 쿼리가 긴 경우(5단어 초과)에는 벡터 검색으로 충분합니다. 벡터 검색은 사용자 쿼리에 컨텍스트 관련 콘텐츠가 포함되어 있을 때 관련성 높은 결과를 제공하며, 일반적으로 쿼리의 길이가 깁니다.
시맨틱 검색 매칭과 키워드 검색 매칭을 모두 결합하여 가장 정확하고 관련성 높은 결과를 얻으려면 하이브리드 검색 색인을 생성하세요.
검색 정확도를 높임으로써 대규모 언어 모델(LLM)을 사용하여 추가 청크를 생성하는 데 드는 높은 비용을 상쇄하여 측정 가능한 가치를 확보할 수 있다면, 추가 메타데이터와 질문 청크로 검색 색인을 보강하세요.
