데이터 클라우드에서 배치 데이터 변환 시작하기
학습 목표
이 유닛을 완료하면 다음을 수행할 수 있습니다.
- 배치 데이터 변환의 정의와 사용 시점을 이해합니다.
- 다양한 유형의 데이터 변환 노드를 식별합니다.
- 배치 데이터 변환을 생성하는 방법을 파악합니다.
배치 데이터 변환 소개
데이터 클라우드에서는 데이터가 데이터 스트림을 통해 유입되며 데이터 레이크 개체(DLO)에 상주합니다. DLO는 데이터 클라우드로 수집된 데이터를 위한 저장소 컨테이너입니다. 데이터 변환을 사용하면 하나 이상의 DLO에서 데이터에 액세스할 수 있으며, 해당 데이터를 변환하여 고유한 데이터 집합을 만들 수 있습니다.
배치 데이터 변환 사용 시점
지속적으로 실행되는 스트리밍 데이터 변환과는 다르게, 배치 데이터 변환은 짜여진 일정에 따라 실행됩니다. 배치 데이터 변환은 스트리밍 데이터 플랫폼에 비해 더 많은 기능을 제공하며, 이러한 기능은 SQL 문을 기반으로 합니다. 배치 데이터 변환은 다양한 시각적 편집기를 제공합니다. 이 편집기를 사용하여 여러 DLO의 데이터를 결합하고, 함수를 사용하여 계산된 필드를 생성하고, 여러 DLO에 데이터를 출력할 수 있습니다.
복잡한 데이터 변환을 수행해야 하거나 예약된 일정에 따라 데이터를 업데이트해야 하는 경우 배치 데이터 변환을 사용합니다. 배치 데이터 변환을 통해 데이터를 결합, 집계 및 추가할 수 있습니다. 공식과 필터를 사용할 수도 있습니다.
배치 데이터 변환의 작동 방식
시각적 편집기를 사용해 노드를 드래그 앤 드롭하여 원하는 데이터를 생성합니다. 노드는 프로세스의 각 단계를 나타냅니다. 노드는 소스 및 대상 데이터, 그리고 해당 데이터에 대해 수행하는 다양한 작업을 나타냅니다.
배치 데이터 변환을 생성하면 여러 노드 유형을 사용하여 필요한 데이터를 정확하게 추출할 수 있습니다. 다음은 선택할 수 있는 노드 유형과 그 기능입니다.
노드 유형 |
동작 방식 |
---|---|
집계 |
Average, Count, Maximum, Minimum, Stddevp, Stddev, Sum, Unique, Varp 및 Var 함수를 사용하여 데이터를 보다 세분화된 수준으로 롤업합니다. |
추가 |
여러 데이터 집합의 행을 결합합니다. |
필터 |
대상 데이터에 필요하지 않은 행을 삭제합니다. |
입력 |
DLO에 소스 데이터를 포함합니다. |
결합 |
조회 또는 결합을 통해 두 입력 노드를 결합합니다. 각각의 입력 노드에는 키 필드가 있어야 합니다. 예를 들어, 고객 데이터 입력 노드와 티켓 판매 노드에는 각각 고객 ID 필드가 있습니다. |
출력 |
DLO에 변환 데이터를 포함합니다. |
변환 |
함수를 사용하여 데이터를 조작합니다. 이 노드를 사용하여 값을 계산하고, 문자열 값을 수정하고, 날짜 서식을 지정하고, 데이터 특성을 편집하고, 열을 삭제하는 등 다양한 작업을 할 수 있습니다. |
업데이트 |
키 쌍이 일치하는 경우 열 값을 다른 데이터 소스의 데이터로 교체합니다. |
배치 데이터 변환 만들기
이제 배치 데이터 변환이 무엇인지 알았으니 실제로 어떻게 작동하는지 살펴보겠습니다. 여러분이 경기 티켓을 판매하는 스포츠 이벤트 회사에서 근무한다고 가정해 보겠습니다. 이 회사는 경기마다 상품을 판매하기도 합니다. 여러분은 고객 티켓 및 상품 구매를 기반으로 VIP 고객 리스트를 만들고자 합니다.
변환을 구축하기 전에 변환된 데이터를 보관할 DLO를 생성합니다. 이 변환의 대상 DLO는 VIP Customers라 불리며, 데이터는 고객 목록이기 때문에 프로필 카테고리가 있습니다. DLO의 이름이 VIP Customers이기는 하지만, 변환에서는 Update VIP Customers DLO라는 보다 직관적인 이름을 사용했습니다.
- 이제 데이터 변환을 빌드할 준비가 되었습니다. 배치 데이터 변환을 선택하면 빈 캔버스가 열립니다. 첫 데이터 소스인 Customers DLO(프로필)를 추가하여 시작합니다.
- 이제 고객 데이터가 있으니 두 개의 결합 노드를 Merchandise Purchase DLO와 Ticket Purchase DLO에 각각 추가합니다. 이러한 DLO는 참여 데이터를 포함하며 고객 ID로 연관되어 있습니다. 결과적으로는 고객을 비롯하여 고객과 관련된 티켓 구매 및 상품 구매 데이터를 포함하는 비정규화된 데이터 집합을 얻게 됩니다.
- 변환 노드를 추가하여 VIP 고객을 식별합니다. 이 노드는 티켓 판매 금액과 상품 금액을 더하여 고객 생애 가치를 계산하고, 불필요한 열을 삭제하고, 고객 생애 가치 평균을 계산하고, 고객이 VIP인지 판별하는 등 여러 가지 작업을 수행합니다.
- 필터 노드를 추가하여 VIP 고객을 추출합니다.
- 변환 노드를 추가하여 최종 데이터 집합에서 필요하지 않은 열을 삭제합니다.
- 변환된 데이터를 보관할 출력 노드를 추가합니다. 출력 노드는 이 프로세스의 초기에 생성한 대상 DLO입니다.
- 변환을 저장하고 실행합니다.
결과 미리 보기
변환이 성공적으로 완료된 후 데이터 탐색기로 이동하여 VIP Customers DLO를 열고 데이터를 검사합니다.