검색 색인 구성 만들기
학습 목표
이 유닛을 완료하면 다음을 수행할 수 있습니다.
- Data 360에서 검색 색인 구성과 그라운딩이 어떻게 작동하는지 설명합니다.
- 벡터 검색 색인 구성을 만듭니다.
검색 색인 구성으로 비정형 데이터를 기반 검색 그라운딩하기
비정형 데이터 및 정형 데이터를 기반으로 검색을 그라운딩하면 Salesforce Platform에 있는 생성형 AI, 분석, 자동화 도구를 더 효과적으로 활용할 수 있습니다. 그라운딩 기반 검색은 고객별 데이터를 Agentforce, Tableau, Flow Builder와 같은 애플리케이션으로 가져와 결과를 사용자의 의도와 컨텍스트에 맞게 미세 조정할 수 있습니다. 이렇게 데이터를 일치시키면 결과적으로 더 정확하고 적절한 AI 생성 콘텐츠, 분석에서 얻은 더 심층적인 인사이트, 팀과 고객을 위한 더 효율적인 자동화 워크플로의 이점을 누리실 수 있습니다.
검색을 그라운딩하려면 비정형 데이터를 의미상 적절한 청크로 나누고 그 청크에서 벡터 임베딩인 청크 데이터를 숫자로 표현한 값을 생성해야 합니다. Data 360 검색 색인에 저장된 청크 단위 콘텐츠는 검색 가능하며, Einstein 생성형 AI 애플리케이션(프롬프트 빌더 및 Agentforce), 자동화(Flow Builder) 및 분석(Tableau) 애플리케이션에서 사용할 수 있습니다.

비정형 데이터를 청크로 나누기
이전 유닛에서는 Data 360이 비정형 데이터 모델 개체(UDMO)를 통해 비정형 테이터를 어떻게 참조하는지 살펴봤습니다. Salesforce Knowledge 기사와 같이 텍스트 필드가 있는 UDMO나 DMO를 청크로 나눌 수도 있습니다. 바로 이번 유닛에서 살펴볼 내용이죠.
UDMO나 DMO를 청킹할 때 관리 가능하며 의미가 있는 청크 단위로 나누게 됩니다. 이러한 텍스트 유닛은 Data 360의 청크 데이터 모델 개체(CDMO)에 저장되는데, CDMO는 데이터 모델 개체나 비정형 데이터 모델 개체에서 생성됩니다.
청킹 작동 방식 이해하기
Data 360은 여러 가지 청킹 전략을 지원합니다.
의미 기반 구절 추출은 HTML 태그에 내재하는 의미를 사용하여 문서를 구절 단위로 나눕니다. 제목(<h1>, <h2>), 목록(<ul>, <ol>), 부제목의 역할을 하는 굵은 텍스트(<strong>)와 같은 HTML 요소는 구절을 논리적으로 구분하는 경계로 간주됩니다.
윈도우 기반 구절 추출 전략은 <div>와 <p> 태그 같은 블록 단위 요소나 줄 바꿈으로 구분된 원본 텍스트를 사용하여 문서를 구절로 나눕니다. 구절에 HTML이 없으면 추출은 문장 단위로 수행됩니다.
청킹 전략에 대한 자세한 내용은 Salesforce 도움말을 살펴보세요.
지금은 데이터를 청크 단위로 나눈 후 어떤 일이 일어나는지 살펴보겠습니다.
청크 단위 콘텐츠에서 벡터 임베딩 만들기
Data 360은 콘텐츠를 청크로 나눈 다음 이 청크 단위 콘텐츠를 숫자로 표시한 벡터 임베딩을 생성합니다. 이는 Salesforce 생성형 AI, 자동화, 또는 분석 애플리케이션에서 검색하거나 사용할 수 있습니다.
벡터 임베딩은 텍스트를 숫자로 표현한 것으로, 단어와 구절 간의 관계를 저장합니다. 임베딩은 내용의 의미를 담고 있어 의미상으로 유사한 콘텐츠 청크는 서로 유사한 벡터 임베딩 값을 갖습니다. 이러한 표현을 이용해 기계는 언어를 효과적으로 처리하고 이해할 수 있습니다.
Data 360에서 벡터 임베딩은 색인 데이터 모델 개체(IDMO)로 참조되며 이에 대해서는 이번 유닛 후반에 더 자세히 살펴보겠습니다.
벡터 검색 색인 구성 만들기
검색할 수 있도록 비정형 데이터를 준비하려면 데이터를 청크 단위로 나누고 벡터화해야 합니다. 이를 위해 검색 색인 구성을 만듭니다. 사용자가 적절한 결과를 찾기 위해 검색하는 정보성 개념, 설명, 또는 상세 설명이 포함된 텍스트 필드가 있는 데이터 개체용 검색 색인 구성을 만들어야 합니다. 그러한 데이터의 예시로는 Salesforce Knowledge 기사나 Amazon S3와 같은 외부 블롭 저장소에 저장된 다른 텍스트 문서(예: 채팅 기록)가 있습니다.
Knowledge 기사에서 벡터 검색 색인 구성 만들기
이전 유닛에서는 일부 Knowledge 기사 샘플을 제공하는 Salesforce CRM 커넥터의 Knowledge 번들에서 데이터 스트림과 데이터 레이크 개체를 만들었습니다.
Knowledge 기사 버전 개체는 색인에 유용합니다. 이 개체를 사용하면 버전에 따라 모든 유형의 기사 전반에서 쿼리하고, 조회하고, 검색할 수 있기 때문입니다. Knowledge 기사 버전 개체는 검색용으로 색인화할 다음 필드가 포함됩니다.
-
Name(이름): Knowledge 기사의 이름이나 제목
-
Description(설명): Summary(요약)에서 매핑된 Knowledge 기사의 설명이나 요약
-
Custom text fields(사용자 정의 텍스트 필드): 비정형 데이터가 포함된 서식 있는 텍스트 필드(최대 131K자 제한)
Knowledge 기사 버전 DMO용 벡터 검색 색인 구성 만들기
이 유닛 후반에 과제를 통과하려면 Data 360 조직에서 다음 단계를 완료해야 합니다.
- 아직 Data Cloud playground를 실행하지 않은 경우 지금 실행합니다.
- App Launcher(앱 시작 관리자)에서 Data Cloud(데이터 클라우드)를 선택합니다.
-
Search Index(검색 색인) | New(새로 만들기)를 클릭합니다.
Data Cloud 탐색 메뉴에서 검색 색인이 보이지 않으면 More(자세히) 드롭다운 메뉴를 클릭한 다음 Search Index(검색 색인)를 선택하세요.
-
Advanced Setup(고급 설정) | Next(다음)를 클릭하세요.
- Select Source Object(소스 개체 선택) 페이지에서 Vector Search(벡터 검색), Knowledge Article Version(Knowledge 기사 버전) DMO를 선택한 다음 Next(다음)를 클릭합니다.
- Select Fields to Chunk(청킹하려는 필드 선택) 페이지에서 Manage Fields(필드 관리)를 클릭합니다.
-
Select All Fields(모든 필드 선택)를 클릭하고 Save(저장)를 클릭합니다.
- 기본값으로 설정된 Chunking Strategy(청킹 전략)를 그대로 두고 Next(다음)를 클릭합니다.
- Select a Vectorization Strategy(벡터화 전략 선택) 페이지에서 기본값으로 설정된 벡터화 전략을 그대로 두고 Next(다음)를 클릭합니다.
- Select Related Fields for Search Filtering(검색 필터링을 위한 관련 필드 선택) 페이지에서 필드를 추가하지 않고 Next(다음)를 클릭합니다.
- Search Index Configuration Details(검색 색인 구성 세부 사항) 페이지에서 자동 생성된 Search Index Configuration Name(검색 색인 구성 이름)을
My_kav로 변경합니다. (검색 색인 구성 API 이름은 자동으로 채워집니다.)
-
Save(저장)를 클릭합니다.
이걸로 끝입니다. 새 검색 색인 구성인 My_kav는 Search Index(검색 색인) 탭 아래에 있습니다.
Knowledge 기사 버전 CDMO 및 IDMO 확인하기
검색 색인 구성을 만든 후에 상태가 Submitted(제출됨)로 변경된 다음 소스 DMO/UDMO에서 데이터를 처리하면서 In-progress(진행 중)로 변경됩니다. 오류가 발생하지 않으면 상태는 Submitted(제출됨)에서 In-progress(진행 중)로 바뀌고 다시 Ready(준비)로 변경됩니다. 검색 색인 상태가 Ready(준비)가 될 때까지 데이터 탐색기에서는 아무런 레코드도 보이지 않습니다.
Knowledge 기사에서 가장 유용한 내용은 Description(설명) 필드에 있습니다. 일반적으로 샘플 기사는 길지 않아서 청크 하나만 존재합니다. 이는 Knowledge 기사 버전 CDMO와 IDMO의 각 레코드의 경우 각각 하나의 청크와 하나의 벡터가 있으나 내용의 길이가 길어지면 각 DMO에 더 많은 레코드가 있을 수 있다는 의미입니다.
Knowledge 기사 버전 DMO용으로 만든 CDMO와 IDMO를 간단히 살펴보겠습니다.
- 검색 색인 상태가 Ready(준비)인지 확인합니다.
- Data Cloud(데이터 클라우드)에서 Data Explorer(데이터 탐색기)를 클릭합니다.
- Object(개체) 드롭다운 메뉴에서 Data Model Object(데이터 모델 개체)를 선택합니다.
- Select an Object(개체 선택) 필드에서 My_kav chunk를 선택합니다.
이제 Data 360이 샘플 Knowledge 기사에서 만든 모든 청크 목록을 확인할 수 있을 것입니다.
- Select an Object(개체 선택) 필드에서 My_kav index를 선택합니다.
이제 Data 360이 샘플 Knowledge 기사에서 만든 모든 벡터 레코드 목록을 확인할 수 있을 것입니다.
검색 색인에 포함된 CDMO와 IDMO를 Salesforce의 Flow Builder, Agentforce, 프롬프트 빌더, 그리고 Tableau와 같은 애플리케이션에서도 사용할 수 있습니다. 벡터 검색 쿼리 실행에 대해 더 자세히 알아보고 싶다면 벡터 검색 문서를 확인해 보세요.
비정형 데이터를 Data 360에 연결하면 다양한 고객 중심 사용 사례에 대한 풍부한 데이터를 기반으로 검색 결과를 그라운딩할 수 있습니다. 이 데이터를 청크 단위로 나누고 벡터화하면 Einstein 생성형 AI 애플리케이션, Flow Builder, 그리고 Tableau에서도 벡터 검색을 사용하여 AI, 분석, 자동화 기능을 강화할 수 있습니다.
