Explorar agregação
Objetivos de aprendizagem
Após concluir esta unidade, você estará apto a:
- Definir agregação.
- Aplicar diferentes tipos de agregação.
O que é agregação?
A agregação é uma coleta de dados quantitativos e pode mostrar grandes tendências de dados. Por exemplo, a soma de todas as pesquisas na web por determinado acampamento ou a obtenção da renda média de todos os assalariados em uma cidade.
Em muitas ferramentas de análise, as variáveis quantitativas são agregadas por padrão, mas podem ser desagregadas (divididas em categorias) para mostrar pontos de dados de cada valor em cada linha da fonte de dados.
Veja algumas agregações típicas.
Agregado | Descrição | Exemplo: 3, 3, 6 |
---|---|---|
Soma |
O total aritmético dos valores |
3 + 3 + 6 = 12 Soma = 12 |
Média |
A média aritmética dos valores (ou seja, a Soma dividida pelo número de valores) |
3 + 3 + 6 = 12 12/3 = 4 Média = 4 |
Mediana |
O valor intermediário em uma lista de valores classificados do menor para o maior (ou do maior para o menor) |
3, 3, 6 Mediana = 3 |
Mínimo |
O menor valor |
3, 3, 6 Mínimo = 3 |
Máximo |
O maior valor |
3, 3, 6 Máximo = 6 |
Contagem |
O número de valores (em uma tabela de dados, o número de linhas ou registros) |
Existem três valores Contagem = 3 |
Contagem distinta (ou Contagem exclusiva) |
O número de valores distintos, onde cada valor exclusivo é contado apenas uma vez (em uma tabela de dados, o número de linhas exclusivas de registros) |
Existem dois valores exclusivos, 3 e 6 Contagem distinta (ou Contagem exclusiva) = 2 |
Exemplos de agregação
Vejamos exemplos de agregações e o impacto delas na análise de dados. Vamos usar dados da pesquisa associados a um teste de vocabulário. Cada participante fez um teste de vocabulário online e depois respondeu a algumas perguntas sobre dados demográficos sobre ele mesmo.
Exibir uma visualização com uma variável quantitativa agregada
Veja a variável quantitativa Age (Idade) na visualização a seguir. Observe que a agregação da Soma adiciona todos os valores na variável Idade para um total de 420.085 anos.
No gráfico acima, uma única barra resume todos os dados (12.168 linhas) no conjunto de dados juntos como um único número.
Esta Soma de Idade pode ser desagregada pelo nível de escolaridade mais elevado, resultando em uma barra que mostra a idade total para cada nível de escolaridade. (Se você somar cada um desses valores, será igual ao total da barra única. 116.602 + 160.542 + 120.351 + 22.092 + 498 = 420.085.)
Importante: A soma não é uma agregação apropriada aqui, pois a idade de 116.602 anos não é significativa. Para algumas variáveis, como a idade neste exemplo, usar a agregação Soma não é uma representação útil ou apropriada dos dados. (Em outros exemplos, Soma pode ser uma agregação apropriada.) Ao criar ou exibir visualizações, é importante prestar atenção às agregações usadas em análises e gráficos.
Exibir dados subjacentes
Para entender melhor quais valores estão sendo somados, vamos observar os dados brutos. Ao examinar os dados em nível de linha, você verá uma linha para cada participante e seu nível de escolaridade e idade.
Observando o nível de escolaridade de Choose not to say (Prefiro não dizer), a soma de Idade é 498.
13 + 13 + 13 + 13 + 15 + 16 + 16 + 16 + 17 + 17 + 18 + 20 + 20 + 23 + 37 + 45 + 53 + 65 + 68 = 498 anos
Exibir o impacto da agregação média
Vamos observar o mesmo gráfico de barras como fizemos anteriormente, mas alterando a agregação para média. Em vez de somar todas as idades e exibir esse valor, agora a altura das barras é sua média aritmética. Para cada nível de escolaridade, todas as idades são somadas e divididas pelo número de valores.
Observando o nível de escolaridade de Choose not to say (Prefiro não dizer), exibido em azul claro, a média é de 26,21 anos.
13 + 13 + 13 + 13 + 15 + 16 + 16 + 16 + 17 + 17 + 18 + 20 + 20 + 23 + 37 + 45 + 53 + 65 + 68 = 498
498 ÷ 19 = 26,21
Agora os números são idades que parecem realistas para uma pessoa (aproximadamente 20 a 43 anos). E, na média, os participantes mais jovens têm um nível de escolaridade menor.
Exibir o impacto da agregação mediana
Vamos observar quando Age (Idade) é agregado como um valor da mediana (ou intermediário) em um conjunto de dados. As médias podem ser estendidas ou distorcidas por valores extremos. Por exemplo, se uma pessoa com 103 anos de idade respondesse ao questionário, sua idade poderia fazer parecer que sua categoria de escolaridade tivesse participantes mais velhos em geral. Para evitar o problema de distorção devido a valores extremos, a agregação MEDIANA classifica todos os valores em ordem (do maior para o menor ou do menor para o maior) e retorna o valor intermediário.
Observando o nível de escolaridade de Choose not to say (Prefiro não dizer), exibido em azul claro, a mediana é de 17 anos.
13 , 13 , 13 , 13 , 15 , 16 , 16 , 16 , 17 , 17 , 18 , 20 , 20 , 23 , 37 , 45 , 53 , 65 , 68
Neste gráfico, podemos ver que as idades medianas são um pouco mais baixas. Podemos esperar medianas mais baixas, pois não há limite de idade para responder ao questionário, enquanto os participantes precisam ter pelo menos 13 anos para participar. Isso significa que não pode haver valores extremos de jovens para reduzir a média. E as tendências gerais ainda aparecem: quanto mais escolaridade, mais velhos são os participantes.
Exibir o impacto das agregações mínimas e máximas
A agregação mínima retorna o menor valor nos dados selecionados e a agregação máxima retorna o maior valor.
Observando o nível de escolaridade de Choose not to say (Prefiro não dizer) (exibido em azul claro), a Idade (anos) mínima é 13.
13 , 13 , 13 , 13 , 15 , 16 , 16 , 16 , 17, 17 , 18 , 20 , 20 , 23 , 37 , 45 , 53 , 65 , 68
Observando o nível de escolaridade de Choose not to say (Prefiro não dizer), exibido em azul claro, a Idade (anos) máxima é 68.
13 , 13 , 13 , 13 , 15 , 16 , 16 , 16 , 17, 17 , 18 , 20 , 20 , 23 , 37 , 45 , 53 , 65 , 68
Exibir o impacto da agregação de contagem
Agora, vamos ver o que acontece se Idade é agregada como uma contagem. Uma contagem retorna o número de valores nos dados da categoria selecionada. Isso significa que não estamos mais olhando para a idade. Em vez disso, estamos olhando para o número de participantes.
Observando o nível de escolaridade de Choose not to say (Prefiro não dizer), a contagem é 19 e a contagem distinta é 12. A contagem distinta é 12 porque quatro participantes tinham 13 anos, dois participantes tinham 16 e dois tinham 20 anos. Contamos 12, 13 e 20 apenas uma vez porque a contagem de agregação distinta conta apenas valores exclusivos.
A contagem é 19 13 13 13 13 15 16 16 16 17 17 18 20 20 23 37 45 53 65 68 |
Sendo que a contagem distinta é 12 13 15 16 17 18 20 23 37 45 53 65 68 |
---|
As contagens mostram que há muito poucos participantes que se recusaram a informar o nível de escolaridade.
Exemplo de desagregação
O primeiro gráfico que você viu era uma visão completamente agregada dos dados. Havia um valor, a Soma geral. Em seguida, o conjunto completo de dados foi desagregado por Nível de escolaridade para mostrar a distribuição da soma das idades para cada nível de escolaridade. Em vez de observar a soma (ou média, ou mínimo) de todas as idades no conjunto de dados, cada barra está agregada ao nível de cada categoria de escolaridade. Os dados ainda estão agregados, mas em um nível mais detalhado.
Agora, vamos considerar os dados originais novamente.
Cada linha representa um participante. Se quiséssemos ver a idade de cada participante em vez de um valor agregado, poderíamos desagregar totalmente os dados ou representar graficamente cada ponto no conjunto de dados.
Exibir o impacto da desagregação de dados
Este gráfico usa a dispersão para espalhar os pontos ou marcas de dados. Dispersão refere-se à colocação aleatória de marcas ao longo de um eixo sem intervalos (aqui, o eixo x) para ajudar a revelar a densidade dos dados. Se não houvesse dispersão, as marcas seriam todas empilhadas em uma única linha vertical por nível de escolaridade. Em um diagrama de dispersão, a localização horizontal de uma marca é aleatória e não transmite qualquer significado particular.
Nesta visualização, podemos ver que há mais participantes mais jovens e menos participantes à medida que as idades aumentam. Também podemos constatar que, embora existam alguns participantes mais velhos na categoria Less than high school (Menos que o ensino fundamental), a maioria é bastante jovem, menos de vinte anos. A categoria High school (Ensino fundamental) tem o maior número de idades por volta dos 20 anos, o que pode indicar que eles são atualmente estudantes universitários. Além disso, há muitos poucos participantes com pós-graduação com menos de 20 anos. Os dados desagregados correspondem muito bem às expectativas realistas baseadas no que sabemos sobre a idade e o nível de escolaridade.
Experimente.
Desafio: Veja a tabela a seguir com três linhas de dados sobre leitores de jornais por semana.
Nome | Jornais lidos por semana |
---|---|
Brooklyn |
2 |
Morgan |
3 |
Vaida |
7 |
Como os valores da variável (2, 3 e 7) Newspapers read per week (Jornais lidos por semana) seriam agregados como uma soma, uma média, uma mediana, um mínimo, um máximo, e uma contagem? Pense um pouco e confira suas respostas usando os flashcards interativos abaixo.
Leia o tipo de agregação em cada cartão, pense em qual seria o valor dessa agregação e clique no cartão para revelar a resposta correta. Clique na seta para a direita para passar para o próximo cartão e na seta para a esquerda para retornar ao cartão anterior.
Você explorou como as agregações afetam os dados e o efeito da desagregação de dados. Na próxima unidade, você se baseará nesses conceitos aprendendo sobre granularidade.