Aprender cómo están organizados los datos
Objetivos de aprendizaje
Después de completar esta unidad, podrá:
- Describir cómo están organizados los datos bien estructurados.
- Diferenciar entre los datos bien estructurados y aquellos con un formato deficiente.
Introducción
En la unidad anterior, aprendió sobre algunas características de los datos útiles y de alta calidad. Dos características que pertenecen específicamente a la organización de datos son la estructura dimensional y al atomicidad. Los datos estructurados de forma dimensional están organizados en dos tipos: Dimensiones (valores cualitativos) y medidas (valores cuantitativos). Esta es la estructura de organización que se usa en Tableau para interpretar los datos. Los datos atómicos son datos muy detallados, lo cual permite analizarlos en varios niveles de detalles.
Cuando los datos están organizados así es más sencillo analizarlos, ya que se pueden examinar, resumir, buscar y filtrar de muchas formas. En general, los datos no organizados están limitados a cómo se pueden analizar. Por ejemplo, si los datos ya están resumidos por mes, entonces no se pueden examinar las tendencias diarias o semanales.
En esta unidad, aprendió cómo se organizan los datos bien estructurados.
Organización de los datos
Los datos están organizados en filas y columnas.
- Las columnas son verticales y cada una representa una variable (o campo) diferente. En el módulo Fundamentos de la alfabetización de datos, se define la variable como una medida, propiedad o característica de un elemento que puede variar o cambiar. En la plataforma de Tableau, las variables se denominan campos.
- Las filas son horizontales y cada una representa una unidad de análisis. En la plataforma de Tableau, las unidades de análisis se conocen como valores.
Observemos un ejemplo. Piense en algunos de sus familiares o amigos y cree una tabla con las siguientes variables (o campos): nombre, edad, altura y comida favorita. Es posible que su tabla tenga un aspecto parecido a la siguiente.
Nombre | Edad | Altura (pulgadas) | Comida favorita |
---|---|---|---|
Aliya |
8 |
50" |
Helado |
Millas |
12 |
63" |
Pizza con aceitunas |
Penny |
42 |
67" |
Mazorca de maíz |
Vince |
39 |
70" |
Tortitas |
Como puede ver, las variables (o campos) están organizadas en columnas, una para cada Nombre, Edad, Altura y Comida favorita. Cada fila representa una unidad de análisis (o valor). En este caso, al leer la información de cualquier fila, se obtiene el nombre, la edad, la altura y la comida favorita de una persona. Por ejemplo, Aliya tiene 8 años, mide 1,27 m y le gusta el helado.
La organización de los datos “buenos”
Los datos “buenos” son datos bien estructurados y que están organizados de esta forma.
- Cada variable (campo) es una columna, con un encabezado de columna.
- Cada observación diferente de esa variable (valor) es una fila diferente.
Veamos, por ejemplo, esta tabla sencilla. Las variables (campos) son Proveedor, Ciudad y Estado, y cada una tiene su propia columna con su correspondiente encabezado. En cada fila, se enumeran las observaciones de las variables (valores). En este caso, el nombre del proveedor y la ubicación por ciudad y estado. Tener el estado del proveedor en su propia columna permite la búsqueda y el filtro de proveedores por estado. Si la ciudad y el estado del proveedor estuvieran combinados en un solo campo, este tipo de análisis sería más difícil.
Proveedor | Ciudad | Estado |
---|---|---|
Polly’s Lollipops |
Preston |
WA |
Lucy’s Lollies |
Lansing |
MI |
Carlo Callazo’s Candy |
Cambridge |
MA |
Ming’s Minty Meringues |
Madison |
WI |
Datos con formato deficiente
Los datos con un formato deficiente tienen ciertas características que generan desorden o pueden dificultar su interpretación para los programas de software, incluido Tableau. Algunos de estos problemas incluyen lo siguiente:
- Las variables (campos) no están en una columna cada una, con un encabezado de columna.
- Cada observación diferente de la variable (valores) no está en una fila diferente.
- Los títulos tienen un formato de filas sobre los encabezados de columnas o de columnas adicionales.
- Hay columnas y filas adicionales.
- Los encabezados de columnas tienen un formato de subtítulos y no en la primera fila.
Observemos, por ejemplo, esta tabla con un formato deficiente. En ella, se documenta la cantidad promedio de películas que vio una muestra de 16 000 personas en California y Nueva York en 2019.
¿Observa alguna de las características de los datos con formato deficiente enumeradas anteriormente?
- A. Títulos en filas: La primera fila solo debe incluir encabezados de columna. Esta fila y la que está debajo son títulos, no encabezados de columna.
- B. Encabezados de columna en la tercera fila: La mayoría de los programas de software, incluido Tableau, no leerán las celdas Característica y Tamaño de muestra como encabezados de columna, a pesar de que están resaltadas.
- C. Columna adicional: Este es el título del informe, pero tiene el formato de una columna.
- D. Fila adicional: Estado es una variable (campo) y debe ocupar su propia columna, con su correspondiente encabezado de columna, no una fila.
- E. (y F) Variable (campo) como subtítulo: Los subtítulos (Grupo etario, Promedio de películas vistas en 2019) en esta columna son variables (campos) que deberían ocupar sus propias columnas.
Ahora ya sabe cómo se organizan los datos y cuál es la diferencia entre datos bien estructurados y datos con un formato deficiente. En la siguiente unidad, exploraremos algunas formas de reestructurar los datos con formato deficiente.