Estimar a probabilidade
Objetivos de aprendizagem
Após concluir esta unidade, você estará apto a:
- Descrever distribuições contÃnuas.
- Descrever as caracterÃsticas de uma distribuição normal.
Introdução
O módulo Distribuições de dados mostra que você pode usar um histograma para fazer gráficos da distribuição de valores contÃnuos. Agora vamos dar uma olhada no conceito de distribuições contÃnuas.
Não discutiremos as fórmulas usadas para completar os cálculos mencionados nesta unidade, mas pode ser útil para você estar familiarizado de forma geral com esses conceitos à medida que continua a explorar, entender e se comunicar com os dados.
Curvas de densidade
O módulo Distribuições de dados explica como os histogramas podem representar as distribuições de amostras finitas de variáveis contÃnuas. A altura de cada barra no histograma é proporcional à frequência dos valores dentro desse compartimento. Em outras palavras, quanto maior a barra, mais frequentemente os pontos de dados da amostra estão dentro desse compartimento.
Por exemplo, o histograma acima mostra a distribuição da altura, em polegadas, de 40 pessoas. É claro que essa é uma amostra de dados com um número finito de pontos de dados. No entanto, quando você considera todos os valores possÃveis da variável contÃnua de altura, vê que ela pode variar amplamente. Não há tempo suficiente em nossas vidas para criar um histograma com compartimentos de todos os valores possÃveis de altura. Isso ocorre para qualquer variável contÃnua.
Em vez de usar um histograma para representar todos os valores possÃveis de uma variável contÃnua, podemos usar uma distribuição contÃnua. Uma distribuição contÃnua parece uma curva suave, também chamada de curva de densidade. A curva de densidade representa mais do que apenas os valores em determinada amostra. Ela representa todos os valores possÃveis, bem como suas probabilidades de ocorrência, ou seja, a probabilidade de ocorrerem os valores.
Ao olhar para histogramas, usamos a altura das barras para entender o número de pontos de dados que ocorrem dentro desse compartimento ou com que frequência os pontos de dados estão dentro desse compartimento. No entanto, quando olhamos para distribuições contÃnuas, não podemos interpretar a altura de uma curva de probabilidade dessa forma.
Imagine dados que contenham todos os valores possÃveis para altura. Não é relevante perguntar sobre a probabilidade de alguém ter exatamente 155 cm. Com um número infinito de valores, perguntar sobre 155 cm é tão arbitrário quanto perguntar sobre a probabilidade de alguém ter 154,94 cm ou 155,02 cm.
Em vez disso, olhamos para a probabilidade dentro de um intervalo, o que equivale à área abaixo da curva dentro desse intervalo.
A área total abaixo da curva é de 1, ou 100%, pois há uma probabilidade de 100% de que todos os valores possÃveis caiam em algum lugar dentro da curva.
Resumindo, aqui estão alguns conceitos a se ter em mente ao pensar em curvas de densidade.
- A área total abaixo da curva é de 100% ou 1.
- São distribuições contÃnuas que representam todos os pontos de dados possÃveis ao mesmo tempo.
- O eixo Y representa a densidade de probabilidade, o que mostra a chance de obtenção de valores próximos a pontos correspondentes no eixo X.
Distribuição normal
Agora vamos focar em uma curva de densidade especial, a distribuição normal ou curva normal. Ela tem uma forma simétrica de "sino".
Quando você olhou para as distribuições de variáveis contÃnuas grafadas em histogramas, aprendeu a descrever uma distribuição simétrica. Se você dobrasse um histograma simetricamente distribuÃdo ao meio, os dois lados corresponderiam perfeitamente. Nas distribuições simétricas, a média e a mediana são iguais.
Assim como com distribuições simétricas, em uma distribuição normal a forma é simétrica e a média também é igual à mediana.
Aqui estão as principais caracterÃsticas de uma distribuição normal.
- Elas são simétricas ao redor da média.
- A média e a mediana são iguais.
- A área abaixo da curva normal é igual a 1,0 (ou 100%).
- Elas são mais densas no centro e menos densas nas pontas.
- Elas são definidas por dois parâmetros, a média e o desvio padrão.
Veja a distribuição normal mostrada na curva acima. Em uma distribuição normal, 68% dos dados têm desvio padrão de +1 e -1 da média e 95% dos dados têm desvio padrão de -2 e +2 da média. As curtas "pontas" em ambos os lados da curva indicam que pouquÃssimos valores (5%) ficarão fora do desvio padrão de -2 e +2 da média.
As distribuições normais com desvios padrão menores terão curvas mais estreitas e mais altas do que as distribuições normais com desvios padrão maiores.
Nesta imagem, ambas as distribuições normais têm uma média de 50. A curva mais alta tem um desvio padrão de 5 e a curva mais curta tem um desvio padrão de 10.
A utilidade da distribuição normal
Em seu livro The Truthful Art, o designer de informações e professor Alberto Cairo explica que "Nenhum fenômeno na natureza segue uma distribuição normal perfeita, mas muitos aproximam o suficiente para torná-la uma das principais ferramentas de estatÃstica". Cairo continua: "Se você sabe que o fenômeno que está estudando é distribuÃdo normalmente, mesmo que não perfeitamente, pode estimar a probabilidade de qualquer caso ou pontuação com precisão razoável." Em outras palavras, as propriedades da curva normal podem ser usadas para estimar a probabilidade de um caso ou pontuação com precisão razoável.
As estimativas populacionais são muitas vezes derivadas de uma amostra porque é raro que possamos medir toda a população. Se a amostra representa a população, a curva normal é uma ferramenta útil de estimativa.
Intervalos de confiança
Ao usar a curva normal para fazer estimativas de probabilidades nos dados da amostra, você pode usar intervalos de confiança para chegar a uma margem de erro.
Os intervalos de confiança são um exemplo de inferência. A inferência é o processo de tirar conclusões sobre uma população com base em uma amostra dos dados.
Um intervalo de confiança contém uma média populacional para uma proporção especÃfica do tempo. Por exemplo, se você quiser ter um intervalo de confiança de 95%, isso significa que 95% dos intervalos em seus dados incluirão a verdadeira média.
O intervalo de confiança de 95% é derivado pelo uso da distribuição normal, em que 95% dos dados têm desvio padrão de -2 e +2 da média.
Vamos considerar um exemplo adaptado do capÃtulo de David M. Lane sobre intervalos de confiança no trabalho online de domÃnio público, Introduction to Statistics (Introdução à EstatÃstica).
Imagine que você esteja interessado no peso médio (média) em quilos de crianças de 10 anos de idade nos Estados Unidos. Você obviamente não pode pesar cada criança de 10 anos, ou seja, em vez disso, você pesa uma amostra de 16 crianças e descobre que o peso médio é de 40 quilos. Essa média amostral de 40 é uma estimativa de ponto da média populacional, mas não dá uma ideia clara da distância da amostra para a média para a população. Em outras palavras, você pode estar confiante de que o peso médio para toda a população dos EUA de crianças de 10 anos está 2 kg a mais ou a menos de 40? Você simplesmente não tem como saber.
No entanto, você pode usar um cálculo (não discutido aqui) para chegar a um intervalo de confiança de 95%. Um intervalo de confiança de 95% incluiria pesos médios entre 33 kg e 48 kg.
Em outras palavras, há uma boa razão para acreditar que o peso médio para toda a população norte-americana de crianças de 10 anos ficaria entre 33 kg e 48 kg porque, depois de colher amostras repetidas com o intervalo de confiança de 95% calculado para cada amostra, 95% das vezes os intervalos conteriam a verdadeira média.
Isso também indica, no entanto, que em 5% das vezes os intervalos não conterão a verdadeira média.
Exemplos do mundo real de ver a incerteza
Alberto Cairo, mencionado anteriormente nesta unidade, escreveu uma série de artigos de blog descrevendo exemplos do mundo real de como a incerteza tem sido representada (e malcompreendida) em visualizações que ilustram caminhos de furacões. Você pode acessar uma postagem no blog sobre a interpretação errada dos mapas de previsão da tempestade de categoria 5 de 2019, o furacão Dorian, além de outros tópicos relacionados no site profissional de Alberto Cairo.
Você agora está familiarizado com distribuições contÃnuas, incluindo a forma especial da curva normal. Na próxima unidade, examinaremos o conceito de teste de hipóteses ao usar amostras de dados.