데이터 준비
학습 목표
이 유닛을 완료하면 다음을 수행할 수 있습니다.
- 데이터 과제를 파악하고 해결하는 방법을 설명할 수 있습니다.
- 프로젝트의 데이터 요구 사항을 정의할 수 있습니다.
데이터 준비 상태의 중요성
AI 프로젝트를 시작하기 위해서는 조직의 데이터가 준비된 상태여야 하는데, 이는 프로젝트를 위한 데이터가 정확하고 사용 가능하며 액세스 가능하고 안전하게 관리된다는 의미입니다.
많은 조직에서 데이터 품질은 AI 프로젝트를 구현하는 데 큰 장벽입니다. 그리고 그럴 만한 이유가 있습니다! 데이터는 AI 알고리즘의 기반이 되어 학습하고 적응하고 더 나은 의사결정을 내릴 수 있도록 합니다. 고품질 데이터는 AI 시스템의 정확성, 효율성, 신뢰성, 공정성을 향상시킬 수 있습니다.
AI 프로젝트를 구현하기 전에 데이터 품질 문제를 해결하는 것이 중요합니다. 하지만 데이터가 완벽해야 한다는 생각이 프로젝트 진행을 방해하지 않도록 해야 합니다. 팀이 완벽을 추구하기 때문에 많은 프로젝트가 데이터 준비 단계에 정체되어 있습니다. 대신 팀과 협업하여 데이터 준비에 대한 합리적인 목표를 찾으세요. 구축 단계를 통해 AI 성과에 영향을 미치는 데이터의 갭을 파악하고 해결할 수 있습니다.
이 유닛에서는 데이터 품질을 평가하고 AI 프로젝트를 위한 데이터를 준비하는 방법에 대한 개요를 제공합니다.
데이터 재고 만들기
Becca는 프로젝트의 데이터를 전체적으로 파악하는 가장 좋은 방법은 데이터 재고를 만드는 것이라는 사실을 알고 있습니다. 데이터 재고는 다양한 데이터 자산을 관리하고 잠재적인 문제를 파악하는 데 도움이 됩니다.
데이터 재고를 만들려면 다음 단계를 수행합니다.
- 프로젝트에 어떤 데이터가 필요한지 파악합니다.
- 데이터를 저장할 위치를 식별합니다.
- 데이터에 대한 몇 가지 질문에 답합니다.
- 데이터 형식이 정형인가요, 비정형인가요, 반정형인가요? (AI 데이터 기초 교육에서 데이터 분류에 대해 자세히 알아보세요.)
- 데이터를 얼마나 자주 업데이트하나요?
- 데이터가 실시간, 매시간, 매일, 매달, 정적으로 업데이트되나요?
- 데이터에 어떻게 액세스할 수 있나요?
- 데이터에 거버넌스 표준이 구현되어 있나요?
- 프로젝트에서 문제를 야기할 수 있는 데이터 고려 사항은 무엇이가요?
- 데이터 형식이 정형인가요, 비정형인가요, 반정형인가요? (AI 데이터 기초 교육에서 데이터 분류에 대해 자세히 알아보세요.)
Coral Cloud의 데이터 재고
Becca의 AI 프로젝트를 계속 진행하여 Coral Cloud Resorts의 체크인 프로세스를 자동화해 보겠습니다. 주요 데이터 포인트를 굵게 표시한 Becca의 구현 계획을 다시 한번 확인해보세요.
- 플로를 사용하여 Data Cloud의 최근 예약 데이터를 기반으로 고객 이벤트 레코드를 생성합니다.
- Einstein Copilot에 대화 언어를 통해 플로를 시작하는 방법을 알려줍니다. 예를 들어 고객인 Sofia Rodriguez가 도착하여 숙박을 시작하면 직원이 Einstein에 “Sofia Rodriguez 체크인”이라고 요청하고 Einstein이 나머지 작업을 수행합니다.
- 프롬프트 빌더를 사용해 고객이 관심을 가질 만한 여행을 제안하는 개인화 환영 이메일을 생성하고 전송합니다.
Becca는 계획을 검토하여 솔루션을 구현하는 데 필요한 데이터가 무엇인지 파악합니다.
- 1단계에서는 예약 데이터가 필요합니다. Coral Cloud는 Reserv-o-matic이라는 외부 플랫폼을 사용하여 예약 데이터를 저장하므로 Data Cloud를 사용하여 해당 데이터를 Salesforce로 가져옵니다.
- 2단계에서는 고객의 이름을 기반으로 예약 데이터를 검색할 수 있어야 합니다. 고객 데이터는 Salesforce에서 사용할 수 있습니다.
- 3단계에서는 고객이 이전에 구매한 여행에 대한 데이터가 필요합니다. 고객 구매 내역도 Salesforce에서 사용할 수 있습니다.
Becca는 필요한 데이터 소스를 추적한 후 데이터 재고를 만듭니다.
데이터 이름 | 데이터 소스 | 데이터 형식 | 업데이트 케이던스 | 고려 사항 |
---|---|---|---|---|
연락처 레코드 | CRM | 정형 | 매일 | 날짜 형식은 MM/DD/YY |
예약 | Reserv-o-matic | 정형 | 실시간 | 날짜 형식은 DD/MM/YY |
여행 | CRM | 정형 | 매일 | 날짜 형식은 MM/DD/YY |
프로젝트의 데이터 요구 사항 파악
프로젝트의 데이터 요구 사항은 프로젝트가 성공하기 위해 필요한 기본 요구 사항입니다. 데이터 요구 사항을 파악하면 불필요한 작업을 줄일 수 있습니다.
데이터 품질 평가
고품질 데이터로 신뢰할 수 있고 효과적인 AI 프로젝트를 만듭니다. (데이터 품질에서 데이터 품질 평가에 대해 자세히 알아보세요.) 데이터 품질을 평가할 때 데이터의 부족한 부분을 파악합니다. 이는 데이터 정제의 영역입니다. 데이터 정제는 데이터 집합 내에서 부정확하거나 손상되었거나 형식이 올바르지 않거나 중복되거나 불완전한 데이터를 수정하거나 제거하는 프로세스입니다. 여기에는 데이터 갭 보완도 포함됩니다. 데이터 정제에는 시간이 오래 걸릴 수 있으므로 프로젝트에 필요하지 않은 데이터는 정제하지 마세요.
Becca가 데이터 재고에 기록했듯이 예약 날짜의 형식은 DD/MM/YY인 반면, 연락처 레코드 및 여행의 형식은 MM/DD/YY입니다. 날짜의 형식이 일관되지 않으므로 품질 기준을 충족하지 못합니다. Becca는 빠른 프로그램을 작성하여 모든 예약 날짜를 MM/DD/YY 형식으로 변환합니다.
Becca는 데이터 문제를 몇 가지 더 정제하면서 완벽하게 만들기에는 데이터가 너무 많다는 사실을 깨닫기 시작합니다. Coral Cloud는 연간 수천 명의 고객이 이용하는 세계적인 수준의 리조트입니다. Becca는 프로젝트의 데이터 요구 사항을 과대평가하여 지난 몇 년간의 예약 데이터를 정제하고 있었다는 사실을 깨닫고 낙담합니다. 자동 체크인에는 향후 예약만 사용될 예정이기 때문에 향후 예약만 정제하면 됩니다. Becca는 향후 날짜를 기준으로 예약을 필터링합니다. 프로젝트의 데이터 요구 사항을 파악함으로써 이제 처리해야 할 레코드의 양이 훨씬 줄어들었습니다.
데이터 마이그레이션 및 통합
데이터가 다양한 소스에 있을 때는 데이터를 마이그레이션해야 합니다. 즉, 어떤 소스에 있는 데이터를 중앙 소스로 가져와야 합니다. 프로젝트가 Salesforce에 구축된 경우 외부 데이터를 Salesforce로 가져옵니다. 데이터를 마이그레이션한 후에는 다양한 소스의 데이터를 하나의 포괄적인 보기에 결합하여 통합합니다. 프로젝트에 필요한 데이터만 마이그레이션하고 통합하세요. 이렇게 하면 프로젝트를 지속적으로 관리할 수 있고 시스템이 불필요한 데이터로 인해 복잡해지는 것을 방지할 수 있습니다.
Becca의 프로젝트에는 Reserv-o-matic의 예약 데이터와 Salesforce의 연락처 레코드를 기반으로 고객 이벤트 레코드를 생성하는 작업이 포함되므로, Becca는 예약 데이터를 연락처 레코드에 연결해야 한다는 것을 알고 있습니다. 그렇지 않으면 플로에서 어떤 예약이 어떤 연락처에 속하는지 알지 못합니다. Becca는 불필요한 데이터를 통합하고 싶지 않으므로 예약 레코드를 살펴보고 어떤 필드가 불필요한지 식별합니다. Becca는 예약에 고객이 특별 요청을 입력할 수 있는 메모 필드가 있는 것을 확인합니다. 여기에는 특정 형식이 없으며 고객이 그대로 비워 두는 경우가 많습니다. Becca는 고객 이벤트 레코드를 만드는 데 메모 필드가 필요하지 않으므로 예약을 Salesforce로 마이그레이션하기 전에 이 필드를 삭제합니다.
Becca는 데이터 스트림을 설정하여 Reserv-o-matic에서 데이터를 가져옵니다. 그런 다음 신원 확인을 사용하여 Salesforce의 Sofia를 Reserv-o-matic의 Sofia와 일치시킵니다. 이제 Sofia의 레코드에는 Salesforce의 연락처 세부 정보와 Reserv-o-matic의 예약 세부 정보가 모두 포함됩니다.
데이터 거버넌스 수립
데이터 작업을 하는 사람의 수가 적을수록 데이터의 일관성이 높아집니다. 거버넌스를 필요한 사람으로만 제한하세요. Becca의 경우 자신과 관리자에게만 액세스 권한을 부여합니다.
분석 계획
성공 여부를 측정하기 위한 분석 게획을 세우세요. 이는 성과를 모니터링하고 프로젝트의 투자 수익(ROI)을 입증하는 데 중요합니다. ROI를 입증하는 것은 프로젝트를 더 발전시키거나 향후 AI 프로젝트에 대한 지원을 받기 위한 핵심 요소입니다.
분석 계획은 이전 유닛에서 설명한 프로젝트 목표에 부합해야 합니다. Becca의 프로젝트 목표를 다시 한번 확인해 보겠습니다.
- 체크인 시간을 50% 줄입니다.
- 고객 만족도를 프로젝트 전과 같은 수준으로 유지하거나 더 높은 수준으로 향상시킵니다.
Becca는 프로젝트가 이러한 목표를 달성했는지 측정하기 위해 데이터를 수집 및 분석하는 방법을 결정합니다. Becca는 다음과 같은 계획을 세웁니다.
- 하루가 끝날 때마다 프론트 데스크 컴퓨터의 사용 시간을 계산합니다. AI 체크인 프로세스를 구현하기 전과 후의 평균 사용 시간을 비교합니다.
- 각 고객이 숙박을 마칠 때 만족도를 평가할 수 있는 선택적인 설문 조사를 합니다. AI 체크인 프로세스를 구현하기 전과 후의 평균 만족도를 비교합니다.
이제 Becca는 프로젝트의 효과를 입증할 수 있는 구체적인 방법을 마련했습니다.
데이터 과제 해결
Becca는 프로젝트의 요구 사항을 정의한 후 일반적으로는 품질 문제, 통합의 어려움, 데이터의 갭이 포함되고 때로는 오래된 데이터 인프라까지 포함되는 가장 중요한 데이터 과제의 해결을 완료합니다. Becca는 문제를 초기에 해결하지 못하면 Coral Cloud의 새 AI 프로젝트가 신뢰할 수 없거나 부정확한 데이터를 기반으로 구축될 수 있다는 사실을 알고 있습니다.
Becca는 지금까지 프로젝트를 잘 진행하고 있습니다! Becca는 진짜 전문가처럼 데이터를 다루고 있습니다. 다음 유닛에서는 Becca가 AI 프로젝트의 위험을 평가하고 프로젝트를 신뢰할 수 있고 책임감 있는 방식으로 구현하는 방법에 대해 알아보겠습니다.