Introdução a transformações de dados em lote no Data Cloud
Objetivos de aprendizagem
Após concluir esta unidade, você estará apto a:
- Descrever transformações de dados em lote e quando usá-las.
- Identificar os tipos diferentes de nós de transformação de dados.
- Descrever como criar uma transformação de dados em lote.
Apresentando transformações de dados em lote
No Data Cloud, os dados são apresentados por meio de um fluxo de dados e residem em um objeto de data lake (DLO). DLO é o contêiner de armazenamento para dados ingeridos no Data Cloud. Uma transformação de dados permite acessar dados em um ou mais DLOs e transformá-los para criar o seu próprio conjunto de dados.
Quando usar uma transformação de dados em lote
Ao contrário de uma transformação de dados de streaming, que é executada continuamente, uma transformação de dados em lote é executada de forma programada. As transformações de dados em lote oferecem mais funcionalidade do que as transformações de dados de streaming, que são baseadas em uma instrução SQL. As transformações de dados em lote oferecem um editor visual poderoso. Você usa esse editor para combinar dados de vários DLOs, usar funções para criar campos calculados e ainda pode enviar dados para vários DLOs.
Use uma transformação de dados em lote quando precisar de fazer transformações de dados complexas ou que os dados sejam atualizados de forma programada. Em uma transformação de dados em lote, você pode juntar, agregar e anexar dados. Você também pode usar fórmulas e filtros.
Como funciona uma transformação de dados em lote?
Usando o editor visual, você arrasta e solta nós para criar os dados que precisa. Um nó representa cada etapa no processo. Os nós representam os dados de origem e de destino, assim como as várias operações que você realiza nesses dados.
Ao criar uma transformação de dados em lote, você pode usar tipos de nós diferentes para extrair os dados exatos que precisa. Aqui estão os tipos de nós diferentes que você pode escolher e o que eles fazem.
Tipo de nó |
O que ele faz |
---|---|
Agregado |
Totaliza dados para uma granularidade maior usando as seguintes funções: Média, Contagem, Máximo, Mínimo, Stddevp, Stddev, Soma, Único, Varp e Var. |
Anexo |
Combina linhas de vários conjuntos de dados. |
Filtro |
Remove linhas que você não precisa em seus dados de destino. |
Entrada |
Contém dados de origem em um DLO. |
Junção |
Junta dois nós de entrada por meio de uma pesquisa ou junção. Cada nó de entrada deve ter um campo-chave. Por exemplo, o nó de entrada de dados de clientes e o nó de venda de ingressos têm ambos um campo de ID de cliente. |
Saída |
Contém os dados transformados em um DLO. |
Transformação |
Manipula dados usando funções. Com este nó, você pode calcular valores, modificar valores de sequência de caracteres, formatar datas, editar atributos de dados, soltar colunas, entre outras coisas. |
Atualização |
Troca valores de colunas com dados de outra origem de dados quando existe correspondência entre pares de chaves. |
Criar uma transformação de dados em lote
Agora que você sabe o que é uma transformação de dados em lote, vejamos como funciona no mundo real. Digamos que você trabalha para uma empresa de eventos desportivos que vende ingressos para jogos. A empresa também vende artigos de merchandising para cada jogo. Você deseja criar uma lista de clientes VIP baseada na compra de ingressos e de artigos de merchandising por clientes.
Antes de criar uma transformação, você precisa criar um DLO que contenha os dados transformados. O DLO alvo nessa transformação se chama Clientes VIP e tem uma categoria de Perfil porque os dados correspondem a uma lista de clientes. Embora o DLO se chame Clientes VIP, na transformação resolvemos dar-lhe um nome mais descritivo: Atualizar DLO de clientes VIP.
- Agora você está pronto para criar a transformação de dados. Ao selecionar Transformação de dados em lote, é exibida uma tela em branco. Comece por adicionar sua primeira origem de dados: DLO de clientes (Perfil).
- Agora que já tem os dados de seus clientes, adicione dois nós de junção: um para DLO de compra de artigos de merchandising e o outro para DLO de compra de ingressos. Esses DLOs contêm dados de interação e estão relacionados por ID de cliente. Você fica com um conjunto de dados desnormalizados que inclui clientes e os respetivos dados de compra de ingressos e de artigos de merchandising.
- Adicione um nó de transformação para identificar clientes VIP. Esse nó realiza várias operações: calcula o valor ao longo da vida do cliente adicionando os valores de venda de ingressos e de artigos de merchandising, remove colunas desnecessárias, calcula o valor médio ao longo da vida do cliente e identifica se o cliente é VIP.
- Adicione um nó de filtro para extrair os clientes VIP.
- Adicione um nó de transformação para remover colunas desnecessárias no conjunto de dados final.
- Adicione um nó de saída para manter os dados transformados. O nó de saída é o DLO alvo que você criou no início desse processo.
- Salve e execute a transformação.
Resultados da visualização
Depois de concluir a transformação com sucesso, acesse o Explorador de dados para abrir o DLO de clientes VIP e inspecionar os dados.