Analisar fases de modelagem e ingestão de dados
Objetivos de aprendizagem
Após concluir esta unidade, você estará apto a:
- Examinar como os dados são ingeridos no Data Cloud.
- Configurar qualificadores de chave para ajudar a interpretar os dados ingeridos.
- Aplicar conceitos básicos de modelagem de dados à sua conta.
Ingestão de dados
Na visão geral, dissemos que os dados são primeiramente ingeridos na origem e armazenados em nosso sistema em um objeto de data lake, mas não entramos em detalhes sobre como conectar e acessar os dados no sistema de origem. Os dados são recuperados na origem por meio de conectores que estabelecem a comunicação entre servidores para que os dados possam ser acessados de forma contínua. Os fluxos de dados ajudam os conectores a determinar a frequência e o momento em que as conexões devem ser estabelecidas.
Os seguintes conectores estão atualmente disponíveis para usuários do Data Cloud, com muitos outros conectores planejados para o futuro.
- Conector de armazenamento em nuvem
- Conector do Google Cloud Storage
- Conector do B2C Commerce
- Conector dor Marketing Cloud Personalization
- Origens dos dados e conector do Marketing Cloud Engagement
- Conector do Salesforce CRM
- Conectores da web e móveis
Vamos analisar cada um deles.
Conector de armazenamento em nuvem
Essa opção cria um fluxo de dados a partir de dados armazenados em um local da partição S3 do Amazon Web Services. O conector acomoda conjuntos de dados personalizados e você pode optar por recuperar dados por hora, diariamente, semanalmente ou mensalmente. Como acontece com os conjuntos de dados personalizados, o conector conclui a etapa de importação e, em seguida, você mapeia os dados para o modelo.
Para qualquer um desses conectores, a guia Refresh History (Atualizar histórico) é um bom recurso para validar se os dados estão sendo recuperados na cadência esperada e sem erros. Se houver um erro de recuperação, a coluna Status (mostrada na imagem a seguir) fornece mais informações sobre o erro,
Conector do Google Cloud Storage
O conector ingere dados do Google Cloud Storage (GCS), um serviço da web de armazenamento online baseado em arquivos na infraestrutura da Google Cloud Platform. O Data Cloud lê seu bucket do GCS e realiza periodicamente uma transferência automatizada de dados de objetos ativos para um ambiente de preparação pertencente ao Data Cloud para consumo de dados.
Conector do B2C Commerce
Este conector ingere dados de uma instância do B2C Commerce e cria um fluxo de dados do B2C Commerce.
Conector do Marketing Cloud Personalization
Este conector ajuda você a ingerir perfis de usuário e eventos comportamentais a partir do Marketing Cloud Personalization no Data Cloud. Você também pode usar o Marketing Cloud Personalization como um destino de ativação. O conector exige que você crie um pacote de dados iniciais.
Origens dos dados e conector do Marketing Cloud Engagement
O Data Cloud oferece pacotes de dados iniciais que fornecem conjuntos de dados predefinidos para emails e dispositivos móveis (incluindo dados do engajamento do Einstein). Como todas essas tabelas do sistema são conhecidas, esses pacotes orientam você por todo o processo, da importação do conjunto de dados como ele está à introdução automática na camada de modelo de dados. Isso significa que, com apenas alguns cliques, você está pronto para começar a trabalhar em seus casos de uso comercial. Os conjuntos de dados comportamentais e orientados ao engajamento recuperados por esses conectores são atualizados a cada hora; os conjuntos de dados de perfil são atualizados diariamente.
Também é possível acessar conjuntos de dados personalizados por meio das Extensões de dados do Marketing Cloud Engagement. Por exemplo, você pode usar esse conector para ingerir dados de comércio eletrônico ou de pesquisa que você já importou para o Marketing Cloud Engagement. Basta provisionar sua instância do Marketing Cloud Engagement no Data Cloud e, em seguida, você verá a lista de extensões de dados que podem ser importadas. Dependendo de como você escolher exportar sua extensão de dados do Marketing Cloud Engagement - Full Refresh (Atualização completa) ou New/Updated Data Only (Somente dados novos/atualizados) - os dados serão recuperados pelo conector diariamente para a primeira opção ou de hora em hora para a segunda opção. Não se esqueça que, ao contrário dos pacotes de dados iniciais, que importam e modelam os dados para você, com esse conector, você mesmo terá que concluir a etapa de modelagem, pois o conjunto de dados é personalizado.
Dados do Salesforce CRM
Depois de autenticar sua instância do Sales e Service Cloud, você pode escolher um objeto por fluxo de dados para conectar à sua conta do Data Cloud selecionando em uma lista de objetos disponíveis ou pesquisando. Os dados são atualizados de hora em hora e, uma vez por semana, há também uma atualização completa dos dados.
Conector da web e móvel
Este conetor captura dados online de sites e aplicativos móveis. O Data Cloud oferece mapeamentos de dados canônicos para instâncias da web e móveis para facilitar a ingestão que, posteriormente, você pode consultar e ativar no celular e no email.
API de ingestão
Se você quiser personalizar a forma como se conecta a outras origens de dados, use a API de ingestão para criar um conector, carregar seu esquema e criar fluxos de dados na organização. Esses fluxos podem ser atualizados de forma incremental ou em massa, dependendo da forma como você configurar suas solicitações de API.
Estender seus dados
Os conectores buscam a forma original dos dados recuperando a lista completa de campos de origem e, se desejar, você pode criar campos calculados adicionais. Por exemplo, se o conector recuperar um campo de idade como um número bruto e você quiser agrupar os dados em grupos de idade como 18-24 anos, 25-34 anos, 35-44 anos, mais de 45 anos, faça isso adicionando uma nova fórmula. A fórmula é uma combinação de instruções IF, assim como operadores <and, or>, para o objeto de data lake que é derivado do campo de origem de idade.
Existem várias funções de fórmula que podem ser utilizadas. Elas podem ser divididas em quatro categorias.
- Manipulação de texto
- Por exemplo: EXTRACT(), FIND(), LEFT(), SUBSTITUTE()
- Conversões de tipos
- Por exemplo: ABS(), MD5(), NUMBER(), PARSEDATE()
- Cálculos de datas
- Por exemplo: DATE(), DATEDIFF(), DAYPRECISION()
- Expressões lógicas
- Por exemplo: (IF(), AND(), OR(), NOT()
Configurar qualificadores de chave
Use chaves totalmente qualificadas (FQK - Fully Qualified Keys) para evitar conflitos de chaves quando dados de diferentes fontes forem ingeridos e harmonizados no modelo de dados do Data Cloud. Cada fluxo de dados é ingerido no Data Cloud com suas chaves e atributos específicos. Quando vários fluxos de dados são harmonizados em um único objeto de modelo de dados (DMO), as várias chaves podem entrar em conflito e os registros podem ter os mesmos valores de chaves. As chaves totalmente qualificadas evitam conflitos adicionando campos de qualificador de chave e interpretando os dados com precisão. Uma chave totalmente qualificada consiste em uma chave de origem, como uma ID de contato do CRM ou uma chave de assinante do Salesforce Marketing Cloud Engagement, e um qualificador de chave.
Configure campos de qualificador de chave para todos os campos de objeto de data lake (DLO) que contêm um valor da chave. O campo pode ser uma chave primária ou um campo de chave estrangeira. Vamos analisar um exemplo para ver como os dados harmonizados são interpretados com e sem qualificadores de chave.
Digamos que você tenha dois fluxos de dados com objetos de data lake (DLO) relacionados para dados do perfil: DLO de contatos do Salesforce CRM e DLO de assinantes do Salesforce Marketing Cloud Engagement. Os registros desses DLOs são mapeados para o DMO individual.
Agora, você deseja juntar o DMO individual ao DMO de engajamento para identificar indivíduos com, no mínimo, dois cliques. Após a harmonização dos dados, os dois fluxos de dados são mapeados para o DMO individual no Data Cloud. O DLO de contatos tem três registros e o DLO de assinantes tem dois registros. Portanto, o DMO individual, que contém todos os registros de todos os fluxos de dados mapeados, tem cinco registros.
O Marketing Cloud Engagement está usando a ID do contato da organização de CRM como a chave primária (chave do assinante). Portanto, há vários registros no DMO individual com o mesmo valor da ID individual, que é o campo de chave primária.
Em seguida, vamos considerar o DMO de engajamento por email que contém dados do engajamento por email que foram ingeridos a partir do Salesforce Marketing Cloud Engagement. O DMO individual e o DMO de engajamento por email têm um relacionamento 1:N por meio da ID individual.
Quando você faz a junção do DMO individual e o DMO de engajamento por email, o Data Cloud interpreta o conjunto de dados combinado como a primeira linha de Indivíduo 2 tendo um clique e a segunda linha de Indivíduo 2 tendo um clique. Ou seja, presume-se que Indivíduo 2 tenha dois cliques em emails. Porém, na realidade, Indivíduo 2 tem apenas uma ação de clique, embora o Data Cloud a interprete como duas ações de clique.
Essa interpretação incorreta pode criar um problema quando esses dados são consultados, incluindo a segmentação, insights calculados e API de consulta. Se você executar uma consulta e pedir indivíduos que tenham um mínimo de duas ações de clique, Indivíduo 2 será retornado na resposta. O problema ocorre mesmo quando a unificação de perfis é implantada, já que os dados de engajamento são sempre associados ao DMO individual.
Quando você adiciona campos de qualificadores de chave a todos os campos do DLO que contêm um valor de chave, seja uma chave primária ou uma chave estrangeira, o Data Cloud interpreta os dados ingeridos de diferentes origens de dados corretamente. Neste exemplo, os qualificadores de chave são adicionados aos DLOs a partir do Salesforce CRM e do Marketing Cloud Engagement. O DMO individual inclui o campo de qualificadores de chave indicando a origem do registro.
Quando o DMO individual e o DMO de engajamento por email são unidos, a junção de tabelas usa o campo de chave estrangeira (ID individual) e o campo de qualificadores de chave (KQ_ID), o que permite que o Data Cloud interprete os dados com precisão.
Quando você executa a mesma consulta para Indivíduos que têm um mínimo de duas ações de clique, os dados do Indivíduo 2 não atendem aos critérios de consulta e não são retornados na resposta da consulta. Use os campos de qualificadores de chave nos insights calculados, segmentação e API de consulta para identificar, direcionar e analisar dados do cliente com precisão.
Modelagem de dados
Já mencionamos que, depois de todos os fluxos de dados serem ingeridos no sistema, existe uma experiência de mapeamento de origem para destino que usa o Modelo de dados do Customer 360 para normalizar as origens dos dados. Por exemplo, você pode usar a noção de ID individual do Modelo de dados do Customer 360 para marcar o campo de origem correspondente ao indivíduo que comprou um dispositivo (um fluxo de dados), telefonou para falar sobre um problema de atendimento (outro fluxo de dados), recebeu uma substituição (ainda outro fluxo de dados) e, em seguida, analisar cada evento na jornada do cliente (sim, mais um fluxo de dados). O mapeamento de dados ajuda você a estabelecer as linhas entre os campos aplicáveis nas origens de dados para ajudar a reunir tudo. Preste bastante atenção nos atributos como nomes, endereços de email e números de telefone (ou identificadores semelhantes). Essas informações ajudam você a vincular os dados de um indivíduo e, por fim, criar um perfil unificado do cliente. Porém, tudo tem um lugar e uma conexão com outra coisa, você só precisa definir o limite.
O Modelo de dados do Customer 360 foi criado para ser extensível, quer pela adição de mais atributos personalizados a um objeto padrão existente, quer pela adição de mais objetos personalizados. Quando objetos padrão são usados, as relações entre os objetos são ativadas automaticamente quando os campos que relacionam os dois objetos são mapeados. Em uma unidade posterior, apresentaremos um exemplo de quando poderá ser necessário definir o relacionamento entre objetos nos casos em que você adicionou objetos personalizados ao modelo.
Agora que você está familiarizado com os conceitos básicos de ingestão e modelagem de dados, já pode passar para exemplos concretos.