Skip to main content
ƚnase a nosotros en TDX, San Francisco o en Salesforce+ del 5 al 6 de marzo en la conferencia de desarrolladores para la era del agente de la IA. Regƭstrese ahora.

Explorar la agregaciĆ³n

Objetivos de aprendizaje 

DespuƩs de completar esta unidad, podrƔ:

  • Definir quĆ© es una agregaciĆ³n.
  • Aplicar diferentes tipos de agregaciĆ³n.

ĀæQuĆ© es la agregaciĆ³n?

La agregaciĆ³n se refiere a una recopilaciĆ³n de datos cuantitativos y puede mostrar tendencias de grandes volĆŗmenes de datos. Por ejemplo, sumar todas las bĆŗsquedas web para un campamento especĆ­fico o calcular los ingresos promedio de todos los asalariados en una ciudad. 

En muchas herramientas de anƔlisis, las variables cuantitativas se agregan de forma predeterminada, pero pueden desagregarse para reflejar los puntos de datos de cada valor en cada fila de la fuente de datos.

Nota

Las variables tambiƩn se conocen como campos en muchas herramientas de anƔlisis de datos.

Estas son algunas agregaciones comunes.

Agregado DescripciĆ³n Ejemplo: 3, 3, 6

Suma

El total aritmƩtico de los valores

3 + 3 + 6 = 12

Suma = 12

Promedio

La media aritmĆ©tica de los valores (es decir, la suma dividida por el nĆŗmero de valores)

3 + 3 + 6 = 12

12/3 = 4

Promedio = 4

Mediana

El valor medio de una lista de valores ordenados de menor a mayor (o de mayor a menor) 

3, 3, 6

Valor medio = 3

MĆ­nimo

El valor mƔs bajo

3, 3, 6

MĆ­nimo = 3

MƔximo

El valor mayor

3, 3, 6

MƔximo = 6

Conteo

El nĆŗmero de valores (en una tabla de datos, el nĆŗmero de filas o registros)

Existen tres valores

Conteo = 3

Conteo distinto

(o conteo Ćŗnico)

El nĆŗmero de valores distintos, donde cada valor Ćŗnico se cuenta solamente una vez (en una tabla de datos, el nĆŗmero de filas Ćŗnicas de registros)

Hay dos valores Ćŗnicos, 3 y 6

Conteo distinto (o conteo Ćŗnico) = 2

Ejemplos de agregaciĆ³n

Veamos algunos ejemplos de agregaciones y el impacto que tienen en el anĆ”lisis de datos. Usaremos datos de encuesta asociados a una prueba de vocabulario en lĆ­nea. Cada participante realizĆ³ un cuestionario de vocabulario en lĆ­nea y luego respondiĆ³ algunas preguntas demogrĆ”ficas sobre sĆ­ mismo. 

Ver una visualizaciĆ³n con una variable cuantitativa agregada

Consultemos la variable cuantitativa Age (Edad) en la siguiente visualizaciĆ³n. Observe que la agregaciĆ³n de Sum (Suma) suma todos los valores de la variable Age (Edad) para un total de 420 085 aƱos.

GrĆ”fico de barras que muestra la variable cuantitativa Age (Edad) sumada con el total de 420 085 aƱos.

En el grĆ”fico anterior, una sola barra resume todos los datos (12 168 filas) del conjunto de datos como un solo nĆŗmero.

Este valor de Sum of Age (Suma de edad) se puede desglosar por el nivel de educaciĆ³n mĆ”s alto, lo que da como resultado una barra que muestra la edad total para cada nivel de educaciĆ³n. (Si suma cada uno de estos valores, es lo mismo que el total de la barra Ćŗnica. 116 602 + 160 542 + 120 351 + 22 092 + 498 = 420 085).

Un grĆ”fico de barras que muestra la suma de la variable cuantitativa Age (Edad) en el eje Y y cinco niveles de educaciĆ³n en el eje X, y un indicador que muestra una suma de 116 602 aƱos para el nivel educativo mĆ”s alto.

Importante: La suma no es una agregaciĆ³n apropiada aquĆ­, ya que una edad de 116 602 aƱos no es significativa. Para algunas variables, como la edad en este ejemplo, el uso de la agregaciĆ³n de suma no es una representaciĆ³n Ćŗtil o adecuada de los datos. (En otros ejemplos, la suma puede ser una agregaciĆ³n apropiada). Al crear o visualizar visualizaciones, es importante prestar atenciĆ³n a las agregaciones que se utilizan en anĆ”lisis y grĆ”ficos.

Ver datos subyacentes

Para comprender mejor quĆ© valores se totalizan, veamos los datos sin procesar. Cuando examina los datos a nivel de fila, ve una fila para cada participante y su nivel de educaciĆ³n y edad. 

Las 19 filas de una tabla de datos para la categorĆ­a Choose Not Say (Elegir no decir), con columnas para Level of Education (Nivel de educaciĆ³n) y Age (Edad).

Si se observa el nivel de educaciĆ³n Choose not to say (Elige no decir), la suma de Age (Edad) es 498.

13 + 13 + 13 + 13 + 15 + 16 + 16 + 16 + 17 + 17 + 18 + 20 + 20 + 23 + 37 + 45 + 53 + 65 + 68 = 498 aƱos

Ver el impacto de la agregaciĆ³n promedio

Miremos el mismo grĆ”fico de barras que antes, pero cambiemos la agregaciĆ³n a promedio. En lugar de sumar todas las edades y mostrar ese valor, ahora la altura de las barras es su promedio aritmĆ©tico. Para cada nivel educativo, se suman todas las edades y se dividen por el nĆŗmero de valores.

Un grĆ”fico de barras con edades promedio para cinco niveles de educaciĆ³n, con el nivel educativo Choose Not to Say (Elige no decir) enfatizado.

Si analizamos el nivel educativo Choose not to say (Elige no decir) (se muestra en celeste), el promedio es 26,21 aƱos.

13 + 13 + 13 + 13 + 15 + 16 + 16 + 16 + 17 + 17 + 18 + 20 + 20 + 23 + 37 + 45 + 53 + 65 + 68 = 498

498 Ć· 19 = 26,21

Ahora bien, los nĆŗmeros son edades que parecen realistas para una persona (aproximadamente, de 20 a 43 aƱos). AdemĆ”s, en promedio, los encuestados mĆ”s jĆ³venes tienen menos educaciĆ³n.

Ver el impacto de la agregaciĆ³n de valor medio

Exploremos cuando se agrega Age (Edad) como valor medio en un conjunto de datos. Los valores extremos pueden estirar o sesgar los promedios. Por ejemplo, si una persona de 103 aƱos realizĆ³ el cuestionario, su edad podrĆ­a hacer que pareciera que su categorĆ­a educativa tenĆ­a participantes de mayor edad en general. Para evitar el problema de sesgo debido a valores extremos, la agregaciĆ³n de VALOR MEDIO clasifica todos los valores en orden (de mayor a menor o de menor a mayor) y devuelve el valor medio. 

Nota

Para obtener mĆ”s informaciĆ³n sobre los valores medios, consulte el mĆ³dulo Distribuciones de datos.

Un grĆ”fico de barras con edades de valor medio para cinco niveles de educaciĆ³n, con el nivel educativo Choose Not to Say (Elige no decir) enfatizado.

Si analizamos el nivel educativo Choose not to say (Elige no decir) (se muestra en celeste), el valor medio de la edad es de 17 aƱos.

13, 13, 13, 13, 15, 16, 16, 16, 17, 17, 18, 20, 20, 23, 37, 45, 53, 65, 68 

En este grĆ”fico, podemos ver que las edades medias son un poco mĆ”s bajas. Se podrĆ­an esperar valores medios mĆ”s bajos porque no hay lĆ­mite de edad para realizar el cuestionario, mientras que los participantes deben tener al menos 13 aƱos para participar. Esto significa que no puede haber valores extremos jĆ³venes que hagan bajar el promedio. AdemĆ”s, las tendencias generales siguen apareciendo: cuanto mĆ”s educaciĆ³n, mayores son los participantes.

Explorar el impacto de las agregaciones mƭnimas y mƔximas

La agregaciĆ³n mĆ­nima devuelve el valor mĆ”s bajo en los datos seleccionados, mientras que la agregaciĆ³n mĆ”xima devuelve el valor mĆ”s alto. 

Un grĆ”fico de barras con edades mĆ­nimas para cinco niveles de educaciĆ³n, con el nivel educativo Choose Not to Say (Elige no decir) enfatizado.

Si analizamos el nivel educativo Choose not to say (Elige no decir) (se muestra en celeste), la edad mĆ­nima es de 13 aƱos.

13, 13, 13, 13, 15, 16, 16, 16, 17, 17, 18, 20, 20, 23, 37, 45, 53, 65, 68 

Un grĆ”fico de barras con edades mĆ”ximas para cinco niveles de educaciĆ³n, con el nivel educativo Choose Not to Say (Elige no decir) enfatizado.

Si analizamos el nivel educativo Choose not to say (Elige no decir) (se muestra en celeste), la edad mĆ”xima es de 68 aƱos.

13, 13, 13, 13, 15, 16, 16, 16, 17, 17, 18, 20, 20, 23, 37, 45, 53, 65, 68 

Explorar el impacto de la agregaciĆ³n de conteo

Ahora, exploremos quĆ© sucede si la edad se agrega como un conteo. Un conteo devuelve el nĆŗmero de valores de los datos de la categorĆ­a seleccionada. Esto significa que ya no nos fijamos en la edad, sino en el nĆŗmero de participantes. 

Si se observa el nivel de educaciĆ³n Choose not to say (Elige no decir)el conteo es 19 y el conteo distinto es 12. El conteo distinto es 12 porque cuatro participantes tenĆ­an 13 aƱos, dos participantes tenĆ­an 16 y dos tenĆ­an 20 aƱos. Contamos 12, 13 y 20 solo una vez porque la agregaciĆ³n distinta de conteo cuenta solo valores Ćŗnicos.

 El conteo es 19 

13
13
13
13
15
16
 16
16
17
 17
 18
 20
 20
 23
 37
 45
 53
 65
 68 
El conteo distinto es 12


13
15
16
17
18
20
23
37
45
 53
 65
  68. 

Los conteos nos muestran que son muy pocos los participantes que se negaron a brindar su nivel educativo.

Ejemplo de desagregaciĆ³n

El primer grĆ”fico que observĆ³ era una vista completamente agregada de los datos: habĆ­a un valor, la suma general. Luego, el conjunto completo de datos se desglosĆ³ por nivel de educaciĆ³n para mostrar el desglose de la suma de edades para cada nivel educativo. En lugar de observar la suma (o el promedio o el mĆ­nimo) de todas las edades en el conjunto de datos, cada barra se agrega al nivel de cada categorĆ­a educativa. Los datos todavĆ­a estĆ”n agregados, pero a un nivel mĆ”s detallado.

Un grĆ”fico de barras con la suma de edades para el nĆŗmero total de participantes del estudio a la izquierda. Un grĆ”fico de barras con la suma de edades para cinco niveles educativos a la derecha.

Ahora, consideremos los datos originales nuevamente.

Las 19 filas de una tabla de datos para la categorĆ­a Choose Not Say (Elegir no decir), con columnas para Level of Education (Nivel de educaciĆ³n) y Age (Edad).

Cada fila representa un participante. Si quisiĆ©ramos ver la edad de cada participante en lugar de un valor agregado, podrĆ­amos desagregar completamente los datos o trazar cada punto en el conjunto de datos. 

Explorar el impacto de los datos desagregados

Un grĆ”fico de fluctuaciĆ³n que muestra la edad de cada participante en los cinco niveles de educaciĆ³n.

Este grĆ”fico utiliza fluctuaciĆ³n para distribuir los puntos o marcas de datos. La fluctuaciĆ³n se refiere a colocar aleatoriamente las marcas a lo largo de un eje que no tiene intervalos (aquĆ­, el eje x) para ayudar a revelar la densidad de los datos. Si no hubiera fluctuaciĆ³n, todas las calificaciones se apilarĆ­an en una Ćŗnica lĆ­nea vertical por nivel de educaciĆ³n. En un grĆ”fico de fluctuaciĆ³n, la ubicaciĆ³n horizontal de una marca es aleatoria y no transmite ningĆŗn significado particular.

En esta visualizaciĆ³n, podemos ver que hay mĆ”s participantes con edades mĆ”s jĆ³venes y menos participantes a medida que aumentan las edades. TambiĆ©n podemos ver que, aunque hay algunos participantes mayores en la categorĆ­a Less than high school (Secundario no completo), la mayorĆ­a de ellos son bastante jĆ³venes: menores de veinte aƱos. La categorĆ­a High school (Secundario completo) tiene la mayor cantidad de edades alrededor de los 20 aƱos, lo que podrĆ­a indicar que actualmente son estudiantes universitarios. TambiĆ©n hay muy pocos participantes con tĆ­tulos de posgrado menores de 20 aƱos. Los datos desagregados coinciden bastante bien con expectativas realistas basadas en lo que sabemos sobre la edad y el nivel de educaciĆ³n. 

Ā”PruĆ©bela!

Reto: Tiene la siguiente tabla con tres filas de datos sobre los lectores de periĆ³dicos por semana.

Nombre PeriĆ³dicos leĆ­dos por semana

Brooklyn

2

Morgan

3

Vaida

7

ĀæCĆ³mo se agregarĆ­an los valores de la variable Newspapers read per week (PeriĆ³dicos leĆ­dos por semana) (2, 3 y 7) como suma, promedio, valor medio, mĆ­nimo, mĆ”ximo y conteo? TĆ³mese un momento para pensar en ello y luego verifique sus respuestas usando las tarjetas interactivas que se muestran a continuaciĆ³n.

Lea el tipo de agregaciĆ³n en cada tarja, piense cuĆ”l serĆ­a el valor para esa agregaciĆ³n y, luego, haga clic en la tarjeta para ver la respuesta correcta. Haga clic en la flecha hacia la derecha para pasar a la tarjeta siguiente y en la flecha hacia la izquierda para regresar a la tarjeta anterior. 

ExplorĆ³ el modo en que las agregaciones inciden en los datos y el efecto de desagregar los datos. En la siguiente unidad, profundizarĆ” en estos conceptos y aprenderĆ” sobre granularidad.

Recursos 

Comparta sus comentarios de Trailhead en la Ayuda de Salesforce.

Nos encantarƭa saber mƔs sobre su experiencia con Trailhead. Ahora puede acceder al nuevo formulario de comentarios en cualquier momento en el sitio de Ayuda de Salesforce.

MĆ”s informaciĆ³n Continuar a Compartir comentarios