Aprender cómo se organizan los datos
Objetivos de aprendizaje
Después de completar esta unidad, podrá:
- Describir cómo se organizan los datos bien estructurados.
- Diferenciar entre los datos bien estructurados y los datos con poco formato.
Introducción
En la unidad anterior, ha aprendido algunas características de los datos útiles y de buena calidad. Dos características que pertenecen específicamente a la organización de datos son los datos estructurados de manera dimensional y atómica. Los datos estructurados de manera dimensional se organizan en dos tipos: dimensiones (valores cualitativos) y medidas (valores cuantitativos). Esta es la estructura de organización que utiliza Tableau a la hora de interpretar los datos. Los datos atómicos son datos muy detallados que le permiten analizarlos en varios nivele de detalles.
Cuando los datos están organizados, resulta más sencillo analizarlos, ya que se pueden examinar, resumir, buscar y filtrar de varias maneras. En general, la manera de analizar los datos no organizados es bastante limitada. Por ejemplo, si los datos ya están resumidos por mes, no se podrán examinar las tendencias diarias o semanales.
En esta unidad, aprenderá cómo se organizan los datos bien estructurados.
Organización de datos
Los datos están organizados en filas y columnas.
- Las columnas son verticales y cada una representa una variable (o campo) diferente. En el módulo Fundamentos de la alfabetización de datos, una variable se define como una medida, propiedad o característica de un elemento que puede variar o cambiar. En la plataforma de Tableau, las variables se denominan campos.
- Las filas son horizontales y cada una representa una unidad de análisis. En la plataforma de Tableau, las unidades de análisis se conocen como valores.
Vamos a ver un ejemplo. Piense en algunos de sus familiares o amigos y cree una tabla con las siguientes variables (o campos): nombre, edad, altura y comida favorita. Es posible que su tabla tenga un aspecto parecido a este.
Nombre | Edad | Altura (metros) | Comida favorita |
---|---|---|---|
Aliya |
8 |
1,27 m |
Helado |
Miles |
12 |
1,60 m |
Pizza con aceitunas |
Penny |
42 |
1,70 m |
Mazorca de maíz |
Vince |
39 |
1,77 m |
Tortitas |
Como puede ver, las variables (o campos) están organizadas en columnas, una para cada una de ellas: Nombre, Edad, Altura y Comida favorita. Cada fila representa una unidad de análisis (o valor). En este caso, al leer la información de cualquier fila, se obtiene el nombre, la edad, la altura y la comida favorita de una persona. Por ejemplo, Aliya tiene 8 años, mide 1,27 m y le gusta el helado.
La organización de los datos "buenos"
Los datos “buenos” son datos bien estructurados y que están organizados de esta forma.
- Cada variable (campo) se encuentra en una columna y cada columna tiene un encabezado.
- Cada observación sobre la variable (valor) se encuentra en una fila diferente.
Vamos a ver esta tabla sencilla de ejemplo. Las variables (campos) son Proveedor, Ciudad y Estado, y cada una de ellas se encuentra en su propia columna con un encabezado. Cada fila enumera las observaciones para las variables (valores), en este caso, el nombre del proveedor y la ubicación por ciudad y estado. Tener el estado del proveedor en su propia columna permite buscar y filtrar a los proveedores por estado. Si la ciudad y el estado del proveedor estuvieran combinados en un solo campo, este tipo de análisis sería más difícil.
Proveedor | Ciudad | Estado |
---|---|---|
Polly’s Lollipops |
Preston |
WA |
Lucy’s Lollies |
Lansing |
MI |
Carlo Callazo’s Candy |
Cambridge |
MA |
Ming’s Minty Meringues |
Madison |
WI |
Datos con poco formato
Los datos con poco formato tienen ciertas características que generan desorden o pueden dificultar su interpretación para los programas de software, incluido Tableau. Algunos de estos problemas incluyen lo siguiente:
- Las variable (campos) no se encuentran en columnas independientes, cada una de ellas con un encabezado.
- Cada observación sobre la variable (valores) no se encuentra en una fila diferente.
- Los títulos tienen un formato de filas sobre los encabezados de columnas o de columnas adicionales.
- Hay columnas y filas adicionales.
- Los encabezados de columnas tienen un formato de subtítulos y no se encuentran en la primera fila.
Vamos a observar esta tabla de ejemplo, que presenta un formato deficiente. En ella, vemos la media de películas que vio una muestra de 16 000 personas en California y Nueva York en 2019.
¿Observa alguna de las características de los datos con poco formato enumeradas anteriormente?
- A. Títulos en filas: la primera fila solo debe incluir encabezados de columna. Esta fila y la que está debajo son títulos, no encabezados de columna.
- B. Encabezados de columna en la tercera fila: la mayoría de los programas de software, incluido Tableau, no leerán las celdas Característica y Tamaño de muestra como encabezados de columna, a pesar de que estén resaltadas.
- C. Columna adicional: este es el título del informe, pero tiene el formato de una columna.
- D. Fila adicional: "Estado" es una variable (campo) y debe ocupar su propia columna, con su correspondiente encabezado de columna, no una fila.
- E. (y F) Variable (campo) como subtítulo: los subtítulos (Grupo etario, Media de películas vistas en 2019) en esta columna son variables (campos) que deberían tener sus propias columnas.
Ahora ya sabe cómo se organizan los datos y cuál es la diferencia entre los datos bien estructurados y los datos con poco formato. En la siguiente unidad, exploraremos algunas formas de reestructurar los datos con poco formato.