Skip to main content

Explorar agregação

Objetivos de aprendizagem 

Após concluir esta unidade, você estará apto a:

  • Definir agregação.
  • Aplicar diferentes tipos de agregação.

O que é agregação?

A agregação é uma coleta de dados quantitativos e pode mostrar grandes tendências de dados. Por exemplo, a soma de todas as pesquisas na web por determinado acampamento ou a obtenção da renda média de todos os assalariados em uma cidade. 

Em muitas ferramentas de análise, as variáveis quantitativas são agregadas por padrão, mas podem ser desagregadas (divididas em categorias) para mostrar pontos de dados de cada valor em cada linha da fonte de dados.

Nota

As variáveis também são conhecidas como campos em muitas ferramentas de análise de dados.

Veja algumas agregações típicas.

Agregado Descrição Exemplo: 3, 3, 6

Soma

O total aritmético dos valores

3 + 3 + 6 = 12

Soma = 12

Média

A média aritmética dos valores (ou seja, a Soma dividida pelo número de valores)

3 + 3 + 6 = 12

12/3 = 4

Média = 4

Mediana

O valor intermediário em uma lista de valores classificados do menor para o maior (ou do maior para o menor) 

3, 3, 6

Mediana = 3

Mínimo

O menor valor

3, 3, 6

Mínimo = 3

Máximo

O maior valor

3, 3, 6

Máximo = 6

Contagem

O número de valores (em uma tabela de dados, o número de linhas ou registros)

Existem três valores

Contagem = 3

Contagem distinta

(ou Contagem exclusiva)

O número de valores distintos, onde cada valor exclusivo é contado apenas uma vez (em uma tabela de dados, o número de linhas exclusivas de registros)

Existem dois valores exclusivos, 3 e 6

Contagem distinta (ou Contagem exclusiva) = 2

Exemplos de agregação

Vejamos exemplos de agregações e o impacto delas na análise de dados. Vamos usar dados da pesquisa associados a um teste de vocabulário. Cada participante fez um teste de vocabulário online e depois respondeu a algumas perguntas sobre dados demográficos sobre ele mesmo. 

Exibir uma visualização com uma variável quantitativa agregada

Veja a variável quantitativa Age (Idade) na visualização a seguir. Observe que a agregação da Soma adiciona todos os valores na variável Idade para um total de 420.085 anos.

Um gráfico de barras que mostra a soma da variável quantitativa Idade com o total de 420.085 anos.

No gráfico acima, uma única barra resume todos os dados (12.168 linhas) no conjunto de dados juntos como um único número.

Esta Soma de Idade pode ser desagregada pelo nível de escolaridade mais elevado, resultando em uma barra que mostra a idade total para cada nível de escolaridade. (Se você somar cada um desses valores, será igual ao total da barra única. 116.602 + 160.542 + 120.351 + 22.092 + 498 = 420.085.)

Um gráfico de barras que mostra a soma da variável quantitativa Idade no eixo y e cinco níveis de escolaridade no eixo x, e um texto explicativo mostrando uma soma agregada de 116.602 anos para o nível de educação mais alto.

Importante: A soma não é uma agregação apropriada aqui, pois a idade de 116.602 anos não é significativa. Para algumas variáveis, como a idade neste exemplo, usar a agregação Soma não é uma representação útil ou apropriada dos dados. (Em outros exemplos, Soma pode ser uma agregação apropriada.) Ao criar ou exibir visualizações, é importante prestar atenção às agregações usadas em análises e gráficos.

Exibir dados subjacentes

Para entender melhor quais valores estão sendo somados, vamos observar os dados brutos. Ao examinar os dados em nível de linha, você verá uma linha para cada participante e seu nível de escolaridade e idade. 

As 19 linhas de uma tabela de dados para a categoria Choose Not Say (Prefiro não dizer), com colunas para Level of Education (Nível de escolaridade) e Age (Idade).

Observando o nível de escolaridade de Choose not to say (Prefiro não dizer), a soma de Idade é 498.

13 + 13 + 13 + 13 + 15 + 16 + 16 + 16 + 17 + 17 + 18 + 20 + 20 + 23 + 37 + 45 + 53 + 65 + 68 = 498 anos

Exibir o impacto da agregação média

Vamos observar o mesmo gráfico de barras como fizemos anteriormente, mas alterando a agregação para média. Em vez de somar todas as idades e exibir esse valor, agora a altura das barras é sua média aritmética. Para cada nível de escolaridade, todas as idades são somadas e divididas pelo número de valores.

Um gráfico de barras com idades médias para cinco níveis de escolaridade, com destaque para o nível de escolaridade Choose not to say (Prefiro não dizer).

Observando o nível de escolaridade de Choose not to say (Prefiro não dizer), exibido em azul claro, a média é de 26,21 anos.

13 + 13 + 13 + 13 + 15 + 16 + 16 + 16 + 17 + 17 + 18 + 20 + 20 + 23 + 37 + 45 + 53 + 65 + 68 = 498

498 ÷ 19 = 26,21

Agora os números são idades que parecem realistas para uma pessoa (aproximadamente 20 a 43 anos). E, na média, os participantes mais jovens têm um nível de escolaridade menor.

Exibir o impacto da agregação mediana

Vamos observar quando Age (Idade) é agregado como um valor da mediana (ou intermediário) em um conjunto de dados. As médias podem ser estendidas ou distorcidas por valores extremos. Por exemplo, se uma pessoa com 103 anos de idade respondesse ao questionário, sua idade poderia fazer parecer que sua categoria de escolaridade tivesse participantes mais velhos em geral. Para evitar o problema de distorção devido a valores extremos, a agregação MEDIANA classifica todos os valores em ordem (do maior para o menor ou do menor para o maior) e retorna o valor intermediário. 

Nota

Para saber mais sobre medianas, confira o módulo Distribuições de dados.

Um gráfico de barras com idades medianas para cinco níveis de escolaridade, com destaque para o nível de ensino Choose not to say (Prefiro não dizer).

Observando o nível de escolaridade de Choose not to say (Prefiro não dizer), exibido em azul claro, a mediana é de 17 anos.

13 , 13 , 13 , 13 , 15 , 16 , 16 , 16 , 17 , 17 , 18 , 20 , 20 , 23 , 37 , 45 , 53 , 65 , 68 

Neste gráfico, podemos ver que as idades medianas são um pouco mais baixas. Podemos esperar medianas mais baixas, pois não há limite de idade para responder ao questionário, enquanto os participantes precisam ter pelo menos 13 anos para participar. Isso significa que não pode haver valores extremos de jovens para reduzir a média. E as tendências gerais ainda aparecem: quanto mais escolaridade, mais velhos são os participantes.

Exibir o impacto das agregações mínimas e máximas

A agregação mínima retorna o menor valor nos dados selecionados e a agregação máxima retorna o maior valor. 

Um gráfico de barras com idades mínimas para cinco níveis de escolaridade, com destaque para o nível de escolaridade Choose not to say (Prefiro não dizer).

Observando o nível de escolaridade de Choose not to say (Prefiro não dizer) (exibido em azul claro), a Idade (anos) mínima é 13.

13 , 13 , 13 , 13 , 15 , 16 , 16 , 16 , 17, 17 , 18 , 20 , 20 , 23 , 37 , 45 , 53 , 65 , 68 

Um gráfico de barras com idades máximas para cinco níveis de escolaridade, com destaque para o nível de escolaridade Choose not to say (Prefiro não dizer).

Observando o nível de escolaridade de Choose not to say (Prefiro não dizer), exibido em azul claro, a Idade (anos) máxima é 68.

13 , 13 , 13 , 13 , 15 , 16 , 16 , 16 , 17, 17 , 18 , 20 , 20 , 23 , 37 , 45 , 53 , 65 , 68 

Exibir o impacto da agregação de contagem

Agora, vamos ver o que acontece se Idade é agregada como uma contagem. Uma contagem retorna o número de valores nos dados da categoria selecionada. Isso significa que não estamos mais olhando para a idade. Em vez disso, estamos olhando para o número de participantes. 

Observando o nível de escolaridade de Choose not to say (Prefiro não dizer)a contagem é 19 e a contagem distinta é 12. A contagem distinta é 12 porque quatro participantes tinham 13 anos, dois participantes tinham 16 e dois tinham 20 anos. Contamos 12, 13 e 20 apenas uma vez porque a contagem de agregação distinta conta apenas valores exclusivos.

 A contagem é 19 

13
13
13
13
15
16
 16
16
17
 17
 18
 20
 20
 23
 37
 45
 53
 65
 68 
Sendo que a contagem distinta é 12


13
15
16
17
18
20
23
37
45
 53
 65
  68 

As contagens mostram que há muito poucos participantes que se recusaram a informar o nível de escolaridade.

Exemplo de desagregação

O primeiro gráfico que você viu era uma visão completamente agregada dos dados. Havia um valor, a Soma geral. Em seguida, o conjunto completo de dados foi desagregado por Nível de escolaridade para mostrar a distribuição da soma das idades para cada nível de escolaridade. Em vez de observar a soma (ou média, ou mínimo) de todas as idades no conjunto de dados, cada barra está agregada ao nível de cada categoria de escolaridade. Os dados ainda estão agregados, mas em um nível mais detalhado.

Um gráfico de barras com a soma das idades para o número total geral de participantes do estudo à esquerda Um gráfico de barras com a soma das idades dos cinco níveis de escolaridade à direita.

Agora, vamos considerar os dados originais novamente.

As 19 linhas de uma tabela de dados para a categoria Choose Not Say (Prefiro não dizer), com colunas para Level of Education (Nível de escolaridade) e Age (Idade).

Cada linha representa um participante. Se quiséssemos ver a idade de cada participante em vez de um valor agregado, poderíamos desagregar totalmente os dados ou representar graficamente cada ponto no conjunto de dados. 

Exibir o impacto da desagregação de dados

Diagrama de dispersão mostrando a idade de cada participante nos cinco níveis de escolaridade.

Este gráfico usa a dispersão para espalhar os pontos ou marcas de dados. Dispersão refere-se à colocação aleatória de marcas ao longo de um eixo sem intervalos (aqui, o eixo x) para ajudar a revelar a densidade dos dados. Se não houvesse dispersão, as marcas seriam todas empilhadas em uma única linha vertical por nível de escolaridade. Em um diagrama de dispersão, a localização horizontal de uma marca é aleatória e não transmite qualquer significado particular.

Nesta visualização, podemos ver que há mais participantes mais jovens e menos participantes à medida que as idades aumentam. Também podemos constatar que, embora existam alguns participantes mais velhos na categoria Less than high school (Menos que o ensino fundamental), a maioria é bastante jovem, menos de vinte anos. A categoria High school (Ensino fundamental) tem o maior número de idades por volta dos 20 anos, o que pode indicar que eles são atualmente estudantes universitários. Além disso, há muitos poucos participantes com pós-graduação com menos de 20 anos. Os dados desagregados correspondem muito bem às expectativas realistas baseadas no que sabemos sobre a idade e o nível de escolaridade. 

Experimente.

Desafio: Veja a tabela a seguir com três linhas de dados sobre leitores de jornais por semana.

Nome Jornais lidos por semana

Brooklyn

2

Morgan

3

Vaida

7

Como os valores da variável (2, 3 e 7) Newspapers read per week (Jornais lidos por semana) seriam agregados como uma soma, uma média, uma mediana, um mínimo, um máximo, e uma contagem? Pense um pouco e confira suas respostas usando os flashcards interativos abaixo.

Leia o tipo de agregação em cada cartão, pense em qual seria o valor dessa agregação e clique no cartão para revelar a resposta correta. Clique na seta para a direita para passar para o próximo cartão e na seta para a esquerda para retornar ao cartão anterior. 

Você explorou como as agregações afetam os dados e o efeito da desagregação de dados. Na próxima unidade, você se baseará nesses conceitos aprendendo sobre granularidade.

Recursos 

Compartilhe seu feedback do Trailhead usando a Ajuda do Salesforce.

Queremos saber sobre sua experiência com o Trailhead. Agora você pode acessar o novo formulário de feedback, a qualquer momento, no site Ajuda do Salesforce.

Saiba mais Continue compartilhando feedback