Reestructurar datos
Objetivos de aprendizaje
Después de completar esta unidad, podrá:
- Identificar las opciones de restructuración de datos.
- Describir el objetivo de pivotar datos.
- Describir el objetivo de dividir datos.
Introducción
Ha aprendido a reconocer datos "buenos" mediante la identificación de caracterÃsticas de gran calidad y datos significativos, y ha aprendido cómo se organizan los datos bien estructurados. Pero, ¿qué deberÃa hacer si sus datos no están bien estructurados? En esta unidad, veremos algunas opciones para restructurar datos, como el uso de variables de pivotación y división (campos).
Opciones para restructurar datos
Entre las opciones que puede utilizar para restructurar datos se incluyen las siguientes:
- Cambiar la base de datos subyacente
- Utilizar lenguaje de programación, como R o Python
- Utilizar herramientas, como la pivotación y la división de datos, en la plataforma de Tableau, incluidos Tableau Prep Builder o Tableau Desktop
- Utilizar otras herramientas de ETL (extraer, transformar, cargar)
En algunos casos, se personalizan metadatos que describen datos, en lugar de modificar los datos reales. Es posible que los metadatos incluyan información como cálculos, campos renombrados y formatos predeterminados. Los metadatos también pueden incluir los cambios que se hayan realizado en la estructura de los datos.
Revisión: datos bien estructurados
Volvamos a lo que ha aprendido antes en este módulo sobre cómo se organizan los datos bien estructurados.
- Cada variable se encuentra en una columna y cada columna tiene un encabezado.
- Cada observación sobre la variable se encuentra en una fila diferente.
Antes hemos observado esta tabla sencilla. Estos datos están bien estructurados. Las variables son Proveedor, Ciudad y Estado, y cada una de ellas se encuentra en su propia columna con un encabezado. Cada fila enumera las observaciones (o valores) para las variables (o campos), en este caso, el nombre del proveedor y la ubicación por ciudad y estado.
Proveedor |
Ciudad |
Estado |
---|---|---|
Polly’s Lollipops |
Preston |
WA |
Lucy’s Lollies |
Lansing |
MI |
Carlo Callazo’s Candy |
Cambridge |
MA |
Ming’s Minty Meringues |
Madison |
WI |
Si los datos no están bien estructurados, deberá completar algunas tareas para que el conjunto de datos resulte útil para su análisis.
Algunas tareas comunes para que los datos estén bien estructurados son las siguientes:
- Pivotar columnas en filas o viceversa
- Dividir campos
¿Qué es una tabla dinámica?
Dicho de forma sencilla, una tabla dinámica convierte columnas en filas y viceversa.
Utilice una tabla dinámica para conjuntos de datos "amplios" cuando la información se capture en muchas columnas y estas contengan información similar. Esta estructura posiblemente sea más conveniente para un informe de usuario, pero no resulte tan útil para realizar un análisis. Por ejemplo, Tableau Desktop funciona mejor para el análisis de datos en una estructura de tabla "alta y estrecha".
Tenga en cuenta esta tabla que enumera la tarifa de estacionamiento que paga cada uno de los empleados. Cada uno de los empleados se encuentra en una fila con un campo (columna) para cada fecha (2/5/2020, 2/6/2020, etc.).
Empleado |
05/02/2020 |
06/02/2020 |
07/02/2020 |
08/02/2020 |
09/02/2020 |
---|---|---|---|---|---|
Christine |
10 |
10 |
10 |
10 |
10 |
Tristan |
10 |
||||
Lily |
10 |
10 |
|||
Jamal |
10 |
10 |
Si incorporamos esta estructura de datos en algunas herramientas, como Tableau Desktop, conseguiremos un campo para cada columna. Hay cinco campos que representan la tarifa de estacionamiento pagada para ese dÃa. Esto hace que resulte muy difÃcil realizar un análisis a través del tiempo a medida que los datos se almacenan en campos independientes. Los campos (variables) Empleado, Fecha y Tarifa de estacionamiento deberÃan estar cada uno en una columna con su encabezado correspondiente. Cada fila deberÃa enumerar los valores (observaciones de las variables), en este caso, el nombre del empleado, la fecha y la tarifa que ha pagado.
Después de utilizar una tabla dinámica, se consigue la estructura de datos deseada, tal y como se muestra en la siguiente tabla. Ahora puede analizar los datos observando las tendencias con el paso del tiempo, ya que los valores de fecha están todos en una columna.
Empleado |
Fecha |
Tarifa de estacionamiento |
---|---|---|
Christine |
05/02/2020 |
10 |
Christine |
06/02/2020 |
10 |
Christine |
07/02/2020 |
10 |
Christine |
08/02/2020 |
10 |
Christine |
09/02/2020 |
10 |
Tristan |
05/02/2020 |
10 |
Lily |
05/02/2020 |
10 |
Lily |
09/02/2020 |
10 |
Jamal |
05/02/2020 |
10 |
Jamal |
07/02/2020 |
10 |
¿Qué es una división?
Dicho de forma sencilla, una división separa una columna que contiene diferentes tipos de información en varias columnas, cada una de ellas para un tipo de información.
Una división separa valores de campos de cadena (texto) basados en un delimitador (un carácter, que puede ser una coma, dos puntos, un punto y coma o un guion, que se coloca entre las diferentes partes de la información en un valor de campo). Las divisiones son útiles para cuando los componentes de campo tienen un significado que puede utilizarse para analizar los datos.
En el siguiente ejemplo, los valores del campo AerolÃnea contienen el nombre de la aerolÃnea y el código de la misma. Los dos puntos entre un tipo de información y el otro es el delimitador.
AerolÃnea |
---|
American Airlines: AA |
Delta Airlines: DL |
JetBlue Airways: B6 |
United Airlines: UA |
Después de la división, los nombres y códigos de las aerolÃneas están en columnas separadas de la tabla. Ahora resulta más sencillo analizar los datos por código de aerolÃnea.
AerolÃnea |
Código de aerolÃnea |
---|---|
American Airlines |
AA |
Delta Airlines |
DL |
JetBlue Airways |
B6 |
United Airlines |
UA |
Ahora ya conoce las caracterÃsticas de los datos y la manera en la que se organizan, además de algunas opciones para restructurarlos, entre las que se incluyen la pivotación y la división de campos.
Utilice la siguiente tabla para responder a la primera pregunta del cuestionario.
Ciudad | Estado | Q1 | Q2 | Q3 | Q4 |
---|---|---|---|---|---|
San Francisco |
CA |
25 465 $ |
15 389 $ |
19 268 $ |
28 491 $ |
Nueva York |
NY |
42 543 $ |
39 642 $ |
41 687 $ |
44 594 $ |
Seattle |
WA |
38 756 $ |
32 174 $ |
33 452 $ |
39 892 $ |