Explorar la granularidad
Objetivos de aprendizaje
Después de completar esta unidad, podrá:
- Definir qué es la granularidad.
- Identificar cómo la agregación y la granularidad inciden en los datos.
¿Qué es la granularidad?
La granularidad hace referencia al nivel de detalle de los datos. En la unidad anterior, exploró el siguiente gráfico de barras con todos los valores de la variable Age (Edad) agregados como una suma. La información no es muy detallada, por lo que el nivel de granularidad es bajo.
El gráfico de barras muestra datos completamente agregados, con un solo número para todo el conjunto de datos. El gráfico de fluctuación muestra datos completamente desagregados, con una marca para cada valor. El diagrama de fluctuación es más detallado, por lo que tiene una granularidad mayor que el gráfico de barras. El gráfico de barras es de alta agregación y baja granularidad. El gráfico de fluctuación es de baja agregación y alta granularidad.
Estos datos desagregados muestran el nivel de detalle más bajo, que proporciona la granularidad más baja de todas las visualizaciones. El nivel de detalle más bajo es una de las características de los datos significativos, tal como se explica en el módulo Datos bien estructurados.
Ejemplos de granularidad
Continuemos explorando la granularidad. Usaremos un conjunto de datos con información sobre la franquicia de una empresa y examinaremos los datos a partir de niveles de granularidad.
Este conjunto de datos incluye más de 50 000 filas. Cada una de estas filas contiene información sobre una única transacción. Con una granularidad menor (mayor agregación), es posible ver patrones más amplios. El aumento a una mayor granularidad (menor agregación) le permite ver los detalles detrás de los patrones.
Un diagrama de dispersión es un gráfico que permite a los usuarios representar datos numéricos (variables cuantitativas) tanto en el eje horizontal como en el vertical para identificar correlaciones o relaciones entre valores. En este ejemplo, usamos un diagrama de dispersión a fin de explorar la relación entre las ventas y las ganancias de una empresa.
Ver un diagrama de dispersión con dos variables cuantitativas
Comenzamos con las variables cuantitativas Profit (Ganancias) y Sales (Ventas), que se muestran en el siguiente diagrama de dispersión.
Aquí, un número (Ventas) se representa en función de otro (Ganancias). Los dos números se comparan con un solo punto de datos o marca porque las ventas y las ganancias se agregan completamente a un solo número (suma de ventas y suma de ganancias).
Estos datos no son muy detallados, por lo que el nivel de granularidad es bajo. Para saber más sobre las ganancias y las ventas de la empresa, los datos deben ser más granulares.
Explorar un diagrama de dispersión con una variable cualitativa agregada
Cuando se agrega una variable cualitativa al diagrama de dispersión, aumenta la granularidad de los datos.
Con la variable cualitativa Categoría codificada por color, los datos ahora se dividen en tres marcas, una para categoría de producto a la venta. Es más granular que el diagrama de dispersión de una marca, pero aún puede ver los datos en mayor detalle.
Observe las ganancias por categoría en el siguiente diagrama de dispersión. Las ganancias en mobiliario están por debajo de las otras dos. A continuación, se recomienda aumentar la granularidad investigando si esta tendencia se mantiene en todos los mercados geográficos.
Explorar un diagrama de dispersión con una segunda variable cualitativa agregada
Con la variable cualitativa Region (Región) que se agrega a la siguiente visualización, puede explorar si las ganancias en mobiliario son más bajas en todos los mercados geográficos. El número de regiones discretas de la fuente de datos se multiplica por el número de categorías para crear marcas en el diagrama de dispersión. Por lo tanto, las 13 regiones se multiplican por las 3 categorías y, como resultado, se crean 39 marcas en el diagrama de dispersión.
Los datos ahora tienen la suficiente granularidad para poder ver una posible causa de las ganancias bajas en mobiliario. La región del Sudeste asiático tiene ganancias en mobiliario notablemente más bajas que otras regiones. Puede seguir aumentando la granularidad de los datos para profundizar en los valores negativos de ganancias para mobiliario en esa región.
Explorar un diagrama de dispersión con datos filtrados
Notará que la región del sudeste asiático tiene ganancias en mobiliario notablemente más bajas que otras regiones. Tendrá que ver si esta falta de rentabilidad se debe a una o dos transacciones, o sin son muchas las transacciones poco rentables.
Sabe que el conjunto de datos incluye una fila para cada transacción. Si los datos están desagregados, verá un punto de datos (o marca) por cada transacción en el conjunto de datos. Pero antes de desagregar los datos en este nivel, fíltrelos para conservar solo las transacciones sobre mobiliario en la región del Sudeste asiático.
El siguiente diagrama de dispersión muestra los datos filtrados que contienen solo una marca de mobiliario en el sudeste asiático.
Explorar datos desagregados
Con los datos filtrados para mostrar solo el mobiliario del sudeste asiático, ahora puede ver la máxima granularidad de datos.
Al desagregar los datos, se muestra una marca separada para cada valor de datos en cada fila de los datos seleccionados. En la siguiente visualización, se observa una marca por cada transacción de mobiliario en el Sudeste asiático. Explorar los niveles de granularidad de esta manera permite hacer un hallazgo importante: Muchas transacciones de venta de muebles no son rentables en el sudeste asiático.
Ahora ya sabe cómo las agregaciones predefinidas inciden en los datos y cómo los diferentes niveles de granularidad afectan al análisis de datos.
Recursos
-
Ayuda de Tableau: Diagramas de dispersión, agregación y granularidad
-
Sitio de Tableau: Videos de capacitación gratuitos
-
Sitio externo: Tutoriales de Tableau: Cómo crear un diagrama de fluctuación