Restructurar los datos
Objetivos de aprendizaje
Después de completar esta unidad, podrá:
- Identificar opciones de reestructuración de datos.
- Describir para qué sirve convertir los datos.
- Describir para qué sirve dividir los datos.
Introducción
Aprendió cómo reconocer los datos “buenos” al identificar las características de los datos relevantes y de alta calidad. Además, exploró cómo se organizan los datos bien estructurados. Pero ¿qué debe hacer si sus datos no tienen la estructura correcta? En esta unidad, explorará algunas opciones para reestructurar los datos, por ejemplo, usar tablas dinámicas y dividir variables (campos).
Opciones para la restructuración de datos
Las opciones que puede utilizar para restructurar los datos incluyen:
- Cambiar la base de datos subyacente
- Utilizar un lenguaje de programación, como R o Python
- Utilizar herramientas, como convertir y dividir datos, que forman parte de la plataforma de Tableau, como Tableau Prep Builder o Tableau Desktop
- Utilizar otras herramientas ETL (extracción, transformación y carga)
En algunos casos, se personalizan los metadatos que describen los datos, en lugar de modificar los datos reales. Los metadatos pueden incluir información como cálculos, campos con el nombre cambiado y formatos predeterminados. Los metadatos también pueden incluir los cambios que se han realizado en la estructura de datos.
Revisión: Datos bien estructurados
Piense en lo que aprendió anteriormente en este módulo sobre cómo se organizan los datos bien estructurados.
- Cada variable es una columna, con un encabezado de columna.
- Cada observación diferente de esa variable es una fila diferente.
Anteriormente, exploramos la siguiente tabla sencilla. Los datos están bien estructurados. Las variables son Proveedor, Ciudad y Estado, y cada una tiene su propia columna con su correspondiente encabezado. En cada fila, se enumeran las observaciones (o valores) de las variables (o campos). En este caso, tenemos el nombre del proveedor y la ubicación por ciudad y estado.
Proveedor |
Ciudad |
Estado |
---|---|---|
Polly’s Lollipops |
Preston |
WA |
Lucy’s Lollies |
Lansing |
MI |
Carlo Callazo’s Candy |
Cambridge |
MA |
Ming’s Minty Meringues |
Madison |
WI |
Si sus datos no están bien estructurados, debe completar algunas tareas de preparación de datos para que el conjunto de datos sea útil para el análisis.
Estos son algunos métodos comunes para convertir los datos desordenados en datos bien estructurados:
- Convertir columnas en filas o viceversa
- Dividir campos
¿Qué es una conversión?
En pocas palabras, se cambian las columnas a filas y, en algunos casos, las filas a columnas.
Puede usar esta alternativa en conjuntos de datos “generales”, cuando la información se almacena en muchas columnas y estas contienen información similar. Esta estructura suele ser más conveniente para un informe de usuario, pero no resulta tan útil para el análisis. Tableau Desktop, por ejemplo, es mejor para analizar datos en una estructura de tabla larga y estrecha.
Veamos esta tabla, en la que se enumeran las tarifas de aparcamiento abonadas por los empleados. Hay una fila para cada empleado, con un campo (columna) para cada fecha (uno para el 5/2/2020, otro para el 6/2/2020, y así sucesivamente).
Empleado |
5 de febrero de 2020 |
6 de febrero de 2020 |
7 de febrero de 2020 |
8 de febrero de 2020 |
9 de febrero de 2020 |
---|---|---|---|---|---|
Christine |
10 |
10 |
10 |
10 |
10 |
Tristan |
10 |
||||
Lily |
10 |
10 |
|||
Jamal |
10 |
10 |
Si incorporamos esta estructura de datos en algunas herramientas, como Tableau Desktop, obtenemos un campo para cada columna. Hay cinco campos que representan las tarifas de aparcamiento abonadas ese día. Esto dificulta mucho el análisis en el tiempo, ya que los datos se almacenan en campos separados. Los campos (variables) Empleado, Fecha y Tarifa de aparcamiento deberían tener sus propias columnas, con sus correspondientes encabezados de columna. En cada fila, se deben enumerar los valores (observaciones de las variables), en este caso, el nombre del empleado, la fecha y la tarifa de aparcamiento abonada.
Después de una conversión, se logra la estructura de datos deseada, la cual se muestra en la siguiente tabla. Ahora puede analizar estos datos al observar las tendencias a lo largo del tiempo, porque todos los valores de fecha están en una columna.
Empleado |
Fecha |
Tarifa de aparcamiento |
---|---|---|
Christine |
5 de febrero de 2020 |
10 |
Christine |
6 de febrero de 2020 |
10 |
Christine |
7 de febrero de 2020 |
10 |
Christine |
8 de febrero de 2020 |
10 |
Christine |
9 de febrero de 2020 |
10 |
Tristan |
5 de febrero de 2020 |
10 |
Lily |
5 de febrero de 2020 |
10 |
Lily |
9 de febrero de 2020 |
10 |
Jamal |
5 de febrero de 2020 |
10 |
Jamal |
7 de febrero de 2020 |
10 |
¿Qué es una división?
En pocas palabras, una división separa una columna que contiene múltiples datos en varias columnas, una para cada uno de estos datos.
Con una división, es posible separar los valores de un campo de cadena (texto) según un delimitador (un carácter, como una coma, dos puntos o un guion, que se encuentra entre los distintos datos del valor de un campo). Las divisiones son útiles cuando los componentes del campo tienen un significado que se puede utilizar para analizar los datos.
En el siguiente ejemplo, los valores del campo Aerolínea incluyen el nombre de la aerolínea y un código de dos letras. Los dos puntos entre estos dos tipos de datos son el delimitador.
Aerolínea |
---|
American Airlines: AA |
Delta Airlines: DL |
JetBlue Airways: B6 |
United Airlines: UA |
Después de la división, los nombres y los códigos de las aerolíneas se encuentran en columnas separadas en la tabla. Ahora puede analizar estos datos fácilmente por códigos de aerolínea.
Aerolínea |
Código de aerolínea |
---|---|
American Airlines |
AA |
Delta Airlines |
DL |
JetBlue Airways |
B6 |
United Airlines |
UA |
Ahora ya conoce las características y la organización de los datos, así como algunas opciones para reestructurarlos, por ejemplo, las técnicas de conversión y división.
Use la siguiente tabla para responder la primera pregunta de la prueba.
Ciudad | Estado | Q1 | Q2 | Q3 | Q4 |
---|---|---|---|---|---|
San Francisco |
CA |
$25.465 |
$15.389 |
$19.268 |
$28.491 |
New York |
NY |
$42.543 |
$39.642 |
$41.687 |
$44.594 |
Seattle |
WA |
$38.756 |
$32.174 |
$33.452 |
$39.892 |