Explorar la agregaciĆ³n
Objetivos de aprendizaje
DespuƩs de completar esta unidad, podrƔ:
- Definir quĆ© es la agregaciĆ³n.
- Aplicar diferentes tipos e agregaciĆ³n.
ĀæQuĆ© es la agregaciĆ³n?
La agregaciĆ³n se refiere a una recopilaciĆ³n de datos cuantitativos y puede mostrar tendencias de grandes volĆŗmenes de datos. Por ejemplo, sumar todas las bĆŗsquedas web para un campamento especĆfico o calcular la media de ingresos de todos los asalariados en una ciudad.
En muchas herramientas de anĆ”lisis, las variables cuantitativas se agregan de forma predeterminada, pero pueden desagregarse (desglosadas por categorĆas) para reflejar los puntos de datos de cada valor en cada fila de la fuente de datos.
Estos son algunos ejemplos comunes de agregaciones.
Agregado | DescripciĆ³n | Ejemplo: 3, 3, 6 |
---|---|---|
Suma |
El total aritmƩtico de los valores |
3 + 3 + 6 = 12 Suma = 12 |
Media |
La media aritmĆ©tica de los valores (es decir, la suma dividida por el nĆŗmero de valores) |
3 + 3 + 6 = 12 12/3 = 4 Media = 4 |
Mediana |
El valor medio de una lista de valores ordenados de menor a mayor (o de mayor a menor) |
3, 3, 6 Mediana = 3 |
MĆnimo |
El valor mƔs pequeƱo |
3, 3, 6 MĆnimo = 3 |
MƔximo |
El valor mƔs grande |
3, 3, 6 MƔximo = 6 |
Recuento |
El nĆŗmero de valores (en una tabla de datos, el nĆŗmero de filas o registros) |
Hay tres valores Recuento = 3 |
Recuento distinto (o recuento Ćŗnico) |
El nĆŗmero de valores distintos, donde cada valor Ćŗnico se cuenta solamente una vez (en una tabla de datos, el nĆŗmero de filas Ćŗnicas de registros) |
Hay dos valores Ćŗnicos, 3 y 6 Recuento distinto (o recuento Ćŗnico) = 2 |
Ejemplos de agregaciones
Vamos a ver algunos ejemplos de agregaciones y el impacto que tienen en el anĆ”lisis de datos. Vamos a utilizar datos de encuesta asociados a una prueba de vocabulario en lĆnea. Cada participante realizĆ³ un cuestionario de vocabulario en lĆnea y, despuĆ©s, respondiĆ³ algunas preguntas demogrĆ”ficas sobre sĆ mismo.
Ver una visualizaciĆ³n con una variable cuantitativa agregada
Vamos a consultar la variable cuantitativa Age (Edad) en la siguiente visualizaciĆ³n. Observe que la agregaciĆ³n de Sum (Suma) suma todos los valores de la variable Age (Edad) y da un total de 420 085 aƱos.
En el grĆ”fico anterior, una sola barra resume todos los datos (12 168 filas) del conjunto de datos como un Ćŗnico nĆŗmero.
Este valor de Sum of Age (Suma de edad) se puede desglosar por el nivel de formaciĆ³n mĆ”s alto, lo que da como resultado una barra que muestra la edad total para cada nivel educativo. (Si suma cada uno de estos valores, es lo mismo que el total de la barra Ćŗnica. 116 602 + 160 542 + 120 351 + 22 092 + 498 = 420 085).
Importante: La suma no es una agregaciĆ³n apropiada para este ejemplo, ya que una edad de 116 602 aƱos no es significativa. Para algunas variables, como la edad en este ejemplo, el uso de la suma como agregaciĆ³n no es una representaciĆ³n Ćŗtil o adecuada de los datos. (En otros ejemplos, la suma puede ser una agregaciĆ³n apropiada). Al crear o ver visualizaciones, es importante prestar atenciĆ³n a las agregaciones que se utilizan en anĆ”lisis y grĆ”ficos.
Ver los datos subyacentes
Para comprender mejor quƩ valores se totalizan, vamos a ver los datos sin procesar. Cuando examina los datos a nivel de fila, puede observar una fila para cada participante y su nivel educativo y edad.
Si se observa el nivel educativo Choose not to say (Prefiero no decirlo), la suma de Age (Edad) es 498.
13 + 13 + 13 + 13 + 15 + 16 + 16 + 16 + 17 + 17 + 18 + 20 + 20 + 23 + 37 + 45 + 53 + 65 + 68 = 498 aƱos
Ver el impacto de la agregaciĆ³n media
Vamos a volver a mirar el mismo grĆ”fico de barras que antes, pero vamos a cambiar la agregaciĆ³n a "media". En lugar de sumar todas las edades y mostrar ese valor, ahora la altura de las barras es su media aritmĆ©tica. Para cada nivel educativo, se suman todas las edades y se dividen por el nĆŗmero de valores.
Si analizamos el nivel educativo Choose not to say (Prefiero no decirlo) (se muestra en celeste), la media es 26,21 aƱos.
13 + 13 + 13 + 13 + 15 + 16 + 16 + 16 + 17 + 17 + 18 + 20 + 20 + 23 + 37 + 45 + 53 + 65 + 68 = 498
498 Ć· 19 = 26,21
Ahora los nĆŗmeros son edades que parecen realistas para una persona (aproximadamente, de 20 a 43 aƱos). AdemĆ”s, como indica la media, los encuestados mĆ”s jĆ³venes tienen menos formaciĆ³n.
Ver el impacto de la agregaciĆ³n mediana
Vamos a ver quĆ© ocurre cuando se agrega Age (Edad) como mediana en un conjunto de datos. Los valores extremos pueden ampliar o sesgar los promedios. Por ejemplo, si una persona de 103 aƱos realizĆ³ el cuestionario, su edad podrĆa hacer que pareciera que su categorĆa educativa tenĆa participantes de mayor edad en general. Para evitar el problema de sesgo debido a los valores extremos, la agregaciĆ³n de MEDIANA clasifica todos los valores en orden (de mayor a menor o de menor a mayor) y devuelve el valor medio.
Si analizamos el nivel educativo Choose not to say (Prefiero no decirlo) (se muestra en celeste), la mediana de la edad es 17 aƱos.
13, 13, 13, 13, 15, 16, 16, 16, 17, 17, 18, 20, 20, 23, 37, 45, 53, 65, 68
En este grĆ”fico, podemos ver que la mediana de la edad es un poco mĆ”s baja. En otros casos, se podrĆa esperar una mediana mĆ”s baja si no hay lĆmite de edad para realizar el cuestionario, pero aquĆ los participantes deben tener al menos 13 aƱos para participar. Esto significa que no puede haber valores extremos jĆ³venes que hagan bajar la media. AdemĆ”s, las tendencias generales siguen apareciendo: cuanto mĆ”s nivel educativo, mayores son los participantes.
Explorar el impacto de las agregaciones mĆnimo y mĆ”ximo
La agregaciĆ³n mĆnima devuelve el valor mĆ”s bajo en los datos seleccionados, mientras que la agregaciĆ³n mĆ”xima devuelve el valor mĆ”s alto.
Si analizamos el nivel educativo Choose not to say (Prefiero no decirlo) (se muestra en celeste), la edad mĆnima es 17.
13, 13, 13, 13, 15, 16, 16, 16, 17, 17, 18, 20, 20, 23, 37, 45, 53, 65, 68
Si analizamos el nivel educativo Choose not to say (Prefiero no decirlo) (se muestra en celeste), la edad mƔxima es 68.
13, 13, 13, 13, 15, 16, 16, 16, 17, 17, 18, 20, 20, 23, 37, 45, 53, 65, 68
Ver el impacto de la agregaciĆ³n recuento
Ahora, vamos a ver quĆ© sucede si la edad se agrega como recuento. Un recuento devuelve el nĆŗmero de valores de los datos de la categorĆa seleccionada. Esto significa que ya no nos fijamos en la edad, sino en el nĆŗmero de participantes.
Si se observa el nivel educativo Choose not to say (Prefiero no decirlo), el recuento es 19 y el recuento distinto es 12. El conteo distinto es 12 porque cuatro participantes tenĆan 13 aƱos, dos participantes tenĆan 16 y dos tenĆan 20 aƱos. Contamos 12, 13 y 20 solo una vez porque la agregaciĆ³n recuento distinto cuenta solo los valores Ćŗnicos.
El recuento es 19 13 13 13 13 15 16 16 16 17 17 18 20 20 23 37 45 53 65 68 |
El recuento distinto es 12 13 15 16 17 18 20 23 37 45 53 65 68 |
---|
Los recuentos nos muestran que son muy pocos los participantes que se negaron a proporcionar su nivel educativo.
Ejemplo de desagregaciĆ³n
El primer grĆ”fico que observĆ³ era una vista completamente agregada de los datos: habĆa solo un valor, la suma general. Luego, el conjunto completo de datos se desagregĆ³ por nivel educativo para mostrar el desglose de la suma de edades para cada nivel educativo. En lugar de observar la suma (o la media o el mĆnimo) de todas las edades en el conjunto de datos, cada barra se agrega al nivel de cada categorĆa educativa. Los datos todavĆa estĆ”n agregados, pero a un nivel mĆ”s detallado.
![]() |
![]() |
Ahora, vamos a tener en cuenta los datos originales de nuevo.
Cada fila representa un participante. Si quisiĆ©ramos ver la edad de cada participante en lugar de un valor agregado, podrĆamos desagregar completamente los datos o trazar cada punto en el conjunto de datos.
Ver el impacto de los datos desagregados
Este grĆ”fico utiliza fluctuaciĆ³n para distribuir los puntos o marcas de datos. La fluctuaciĆ³n se refiere a colocar aleatoriamente las marcas a lo largo de un eje que no tiene intervalos (aquĆ, el eje X) para ayudar a revelar la densidad de los datos. Si no hubiera fluctuaciĆ³n, todas las marcas se apilarĆan en una Ćŗnica lĆnea vertical por nivel educativo. En un grĆ”fico de nube, la ubicaciĆ³n horizontal de una marca es aleatoria y no transmite ningĆŗn significado particular.
En esta visualizaciĆ³n, podemos ver que hay mĆ”s participantes jĆ³venes y menos participantes a medida que aumenta la edad. TambiĆ©n podemos ver que, aunque hay algunos participantes mayores en la categorĆa Less than high school (Inferior a secundaria), la mayorĆa de ellos son bastante jĆ³venes (menores de veinte aƱos). La categorĆa High school (Secundaria) tiene la mayor cantidad de edades alrededor de los 20 aƱos, lo que podrĆa indicar que actualmente son estudiantes universitarios. TambiĆ©n hay muy pocos participantes con tĆtulos de posgrado menores de 20 aƱos. Los datos desagregados coinciden bastante bien con las expectativas realistas basadas en lo que sabemos sobre la edad y el nivel educativo.
PĆ³ngase a prueba
Reto: Tiene la siguiente tabla con tres filas de datos sobre los lectores de periĆ³dicos por semana.
Nombre | PeriĆ³dicos leĆdos por semana |
---|---|
Brooklyn |
2 |
Morgan |
3 |
Vaida |
7 |
ĀæCĆ³mo se agregarĆan los valores de la variable PeriĆ³dicos leĆdos por semana (2, 3 y 7) como suma, media, mediana, mĆnimo, mĆ”ximo y recuento? TĆ³mese un momento para pensar en ello y, despuĆ©s, compruebe sus respuestas usando las tarjetas interactivas que se muestran a continuaciĆ³n.
Lea el tipo de agregaciĆ³n en cada tarja, piense cuĆ”l serĆa el valor para esa agregaciĆ³n y, despuĆ©s, haga clic en la tarjeta para ver la respuesta correcta. Haga clic en la flecha hacia la derecha para ir a la siguiente tarjeta y en la flecha hacia la izquierda para volver a la tarjeta anterior.
Ha explorado la manera en la que las agregaciones inciden en los datos y el efecto que se produce al desagregar los datos. En la siguiente unidad, vamos a profundizar en estos conceptos y aprenderĆ” sobre granularidad.