Primeros pasos con las transformaciones de datos por lotes en Data Cloud
Objetivos de aprendizaje
Después de completar esta unidad, podrá:
- Describir las transformaciones de datos por lotes y cuándo utilizarlas.
- Identificar los distintos tipos de nodos de transformación de datos.
- Describir cómo crear una transformación de datos por lotes.
Presentación de las transformaciones de datos por lotes
En Data Cloud, los datos llegan a través de una transmisión de datos y residen en un objeto de lago de datos (data late object, DLO). Un DLO es el contenedor de almacenamiento para los datos que se introducen en Data Cloud. Una transformación de datos le permite acceder a los datos de uno o varios DLO y transformarlos para crear su propio conjunto de datos.
Cuándo utilizar una transformación de datos por lotes
A diferencia de una transformación de datos por transmisión, que se ejecuta de manera continua, la transformación de datos por lotes se ejecuta de forma programada. Este tipo de transformación ofrece más funcionalidades que las transformaciones de datos por transmisión, que se basan en una declaración SQL. Las transformaciones de datos por lotes ofrecen un editor visual integral. El editor permite combinar datos de varios DLO, utilizar funciones para crear campos calculados y enviar datos a varios DLO.
Utilice una transformación de datos por lotes cuando necesite realizar transformaciones de datos complejas o cuando necesite actualizar datos de forma programada. En una transformación de datos por lotes, puede unir, agregar y anexar datos. También puede utilizar fórmulas y filtros.
¿Cómo funciona una transformación de datos por lotes?
Mediante el editor visual, arrastra y suelta nodos para crear los datos que necesita. Los nodos representan cada paso del proceso. También representan los datos de origen y destino, así como las distintas operaciones que se realizan con ellos.
Al crear una transformación de datos por lotes, puede utilizar los distintos tipos de nodos para extraer los datos exactos que necesita. A continuación, presentamos los distintos tipos de nodos entre los que puede elegir y lo que hace cada uno.
Tipo de nodo |
Lo que hace |
---|---|
Agregado |
Resume los datos con un nivel superior de granularidad mediante las siguientes funciones: Average, Count, Maximum, Minimum, Stddevp, Stddev, Sum, Unique, Varp y Var. |
Anexado |
Combina filas de varios conjuntos de datos. |
Filtro |
Elimina las filas que no necesita en los datos de destino. |
Entrada |
Guarda los datos de origen en un DLO. |
Unión |
Une dos nodos de entrada mediante una búsqueda o unión. Cada nodo de entrada debe tener un campo clave. Por ejemplo, el nodo de entrada de datos de clientes y el nodo de venta de entradas tienen cada uno un campo de Id. de cliente. |
Resultado |
Guarda los datos transformados en un DLO. |
Transformación |
Manipula datos mediante el uso de funciones. Con este nodo, puede calcular valores, modificar valores de cadena, dar formato a fechas, modificar atributos de datos, soltar columnas, etc. |
Actualización |
Intercambia los valores de las columnas con datos de otra fuente de datos cuando los pares de claves coinciden. |
Crear una transformación de datos por lotes
Ahora que ya sabe lo que es una transformación de datos por lotes, veamos cómo funciona en el mundo real. Supongamos que trabaja en una compañía que organiza eventos deportivos y vende entradas a partidos. También vende mercancías para cada partido. Desea crear una lista de clientes VIP en función de las compras de entradas y mercancías que realizan los clientes.
Antes de empezar a crear una transformación, primero crea un DLO que contendrá los datos transformados. En esta transformación, el DLO de destino se denomina “Clientes VIP” e incluye la categoría “Perfil”, ya que los datos son una lista de clientes. Si bien el DLO se denomina Clientes VIP, en la transformación le asignamos el nombre "Actualizar el DLO de clientes VIP" para una mejor descripción.
- Ahora está preparado para crear la transformación de datos. Al seleccionar “Transformación de datos por lotes”, se abre un lienzo en blanco. Para comenzar, agregue la primera fuente de datos: DLO de clientes (perfil).
- Ahora que ya tiene los datos de los clientes, agregue dos nodos de unión: uno al DLO de compra de mercancías y otro al DLO de compra de entradas. Ambos DLO contienen datos de implicación y se vinculan mediante el Id. de cliente. Al final se obtiene un conjunto de datos desnormalizados que incluye a los clientes y los datos relacionados con la compra de entradas y mercancías.
- Agregue un nodo de transformación para identificar a los clientes VIP. Este nodo realiza varias operaciones: suma el importe de las ventas de entradas y el importe de las mercancías para calcular el valor del ciclo de vida del cliente, omite las columnas innecesarias, calcula el valor promedio del ciclo de vida del cliente e identifica si el cliente es VIP.
- Agregue un nodo de filtro para extraer a los clientes VIP.
- Agregue un nodo de transformación para eliminar las columnas que no necesite en el conjunto de datos final.
- Agregue un nodo de salida para almacenar los datos transformados. El nodo de salida es el DLO de destino que creó al principio de este proceso.
- Guarde y ejecute la transformación.
Obtener una vista previa de los resultados
Una vez que la transformación se realice correctamente, diríjase a la página “Explorador de datos” para abrir el DLO de clientes VIP e inspeccionar los datos.