Estimar a probabilidade

Objetivos de aprendizagem

Após concluir esta unidade, você estará apto a:

Descrever distribuições contínuas.
Descrever as características de uma distribuição normal.

Introdução

O módulo Distribuições de dados mostra que você pode usar um histograma para fazer gráficos da distribuição de valores contínuos. Agora vamos dar uma olhada no conceito de distribuições contínuas.

Não discutiremos as fórmulas usadas para completar os cálculos mencionados nesta unidade, mas pode ser útil para você estar familiarizado de forma geral com esses conceitos à medida que continua a explorar, entender e se comunicar com os dados.

Curvas de densidade

O módulo Distribuições de dados explica como os histogramas podem representar as distribuições de amostras finitas de variáveis contínuas. A altura de cada barra no histograma é proporcional à frequência dos valores dentro desse compartimento. Em outras palavras, quanto maior a barra, mais frequentemente os pontos de dados da amostra estão dentro desse compartimento.

Um histograma com cinco compartimentos

Por exemplo, o histograma acima mostra a distribuição da altura, em polegadas, de 40 pessoas. É claro que essa é uma amostra de dados com um número finito de pontos de dados. No entanto, quando você considera todos os valores possíveis da variável contínua de altura, vê que ela pode variar amplamente. Não há tempo suficiente em nossas vidas para criar um histograma com compartimentos de todos os valores possíveis de altura. Isso ocorre para qualquer variável contínua.

Em vez de usar um histograma para representar todos os valores possíveis de uma variável contínua, podemos usar uma distribuição contínua. Uma distribuição contínua parece uma curva suave, também chamada de curva de densidade. A curva de densidade representa mais do que apenas os valores em determinada amostra. Ela representa todos os valores possíveis, bem como suas probabilidades de ocorrência, ou seja, a probabilidade de ocorrerem os valores.

Uma curva de densidade azul

Ao olhar para histogramas, usamos a altura das barras para entender o número de pontos de dados que ocorrem dentro desse compartimento ou com que frequência os pontos de dados estão dentro desse compartimento. No entanto, quando olhamos para distribuições contínuas, não podemos interpretar a altura de uma curva de probabilidade dessa forma.

Imagine dados que contenham todos os valores possíveis para altura. Não é relevante perguntar sobre a probabilidade de alguém ter exatamente 155 cm. Com um número infinito de valores, perguntar sobre 155 cm é tão arbitrário quanto perguntar sobre a probabilidade de alguém ter 154,94 cm ou 155,02 cm.

Em vez disso, olhamos para a probabilidade dentro de um intervalo, o que equivale à área abaixo da curva dentro desse intervalo.

A área total abaixo da curva é de 1, ou 100%, pois há uma probabilidade de 100% de que todos os valores possíveis caiam em algum lugar dentro da curva.

Uma curva de densidade com uma área sombreada (intervalo)

Resumindo, aqui estão alguns conceitos a se ter em mente ao pensar em curvas de densidade.

A área total abaixo da curva é de 100% ou 1.
São distribuições contínuas que representam todos os pontos de dados possíveis ao mesmo tempo.
O eixo Y representa a densidade de probabilidade, o que mostra a chance de obtenção de valores próximos a pontos correspondentes no eixo X.

Distribuição normal

Agora vamos focar em uma curva de densidade especial, a distribuição normal ou curva normal. Ela tem uma forma simétrica de "sino".

Quando você olhou para as distribuições de variáveis contínuas grafadas em histogramas, aprendeu a descrever uma distribuição simétrica. Se você dobrasse um histograma simetricamente distribuído ao meio, os dois lados corresponderiam perfeitamente. Nas distribuições simétricas, a média e a mediana são iguais.

Assim como com distribuições simétricas, em uma distribuição normal a forma é simétrica e a média também é igual à mediana.

Aqui estão as principais características de uma distribuição normal.

Elas são simétricas ao redor da média.
A média e a mediana são iguais.
A área abaixo da curva normal é igual a 1,0 (ou 100%).
Elas são mais densas no centro e menos densas nas pontas.
Elas são definidas por dois parâmetros, a média e o desvio padrão.

Veja a distribuição normal mostrada na curva acima. Em uma distribuição normal, 68% dos dados têm desvio padrão de +1 e -1 da média e 95% dos dados têm desvio padrão de -2 e +2 da média. As curtas "pontas" em ambos os lados da curva indicam que pouquíssimos valores (5%) ficarão fora do desvio padrão de -2 e +2 da média.

As distribuições normais com desvios padrão menores terão curvas mais estreitas e mais altas do que as distribuições normais com desvios padrão maiores.

Nesta imagem, ambas as distribuições normais têm uma média de 50. A curva mais alta tem um desvio padrão de 5 e a curva mais curta tem um desvio padrão de 10.

Duas curvas com média de 50, a curva mais alta com um desvio padrão de 5 e a curva mais curta com um desvio padrão de 10

A utilidade da distribuição normal

Em seu livro The Truthful Art, o designer de informações e professor Alberto Cairo explica que “Nenhum fenômeno na natureza segue uma distribuição normal perfeita, mas muitos aproximam o suficiente para torná-la uma das principais ferramentas de estatística”. Cairo continua: "Se você sabe que o fenômeno que está estudando é distribuído normalmente, mesmo que não perfeitamente, pode estimar a probabilidade de qualquer caso ou pontuação com precisão razoável." Em outras palavras, as propriedades da curva normal podem ser usadas para estimar a probabilidade de um caso ou pontuação com precisão razoável.

As estimativas populacionais são muitas vezes derivadas de uma amostra porque é raro que possamos medir toda a população. Se a amostra representa a população, a curva normal é uma ferramenta útil de estimativa.

Pessoas em animação em um grande oval que representa a população total e um número menor de pessoas em animação em um oval menor que representa a amostra

Intervalos de confiança

Ao usar a curva normal para fazer estimativas de probabilidades nos dados da amostra, você pode usar intervalos de confiança para chegar a uma margem de erro.

Os intervalos de confiança são um exemplo de inferência. A inferência é o processo de tirar conclusões sobre uma população com base em uma amostra dos dados.

Uma distribuição normal acima de três barras azuis representando intervalos de confiança

Um intervalo de confiança contém uma média populacional para uma proporção específica do tempo. Por exemplo, se você quiser ter um intervalo de confiança de 95%, isso significa que 95% dos intervalos em seus dados incluirão a verdadeira média.

O intervalo de confiança de 95% é derivado pelo uso da distribuição normal, em que 95% dos dados têm desvio padrão de -2 e +2 da média.

Vamos considerar um exemplo adaptado do capítulo de David M. Lane sobre intervalos de confiança no trabalho online de domínio público, Introduction to Statistics (Introdução à Estatística).

Imagine que você esteja interessado no peso médio (média) em quilos de crianças de 10 anos de idade nos Estados Unidos. Você obviamente não pode pesar cada criança de 10 anos, ou seja, em vez disso, você pesa uma amostra de 16 crianças e descobre que o peso médio é de 40 quilos. Essa média amostral de 40 é uma estimativa de ponto da média populacional, mas não dá uma ideia clara da distância da amostra para a média para a população. Em outras palavras, você pode estar confiante de que o peso médio para toda a população dos EUA de crianças de 10 anos está 2 kg a mais ou a menos de 40? Você simplesmente não tem como saber.

Uma distribuição normal com os valores estabelecendo um intervalo de confiança de 95% rotulados

No entanto, você pode usar um cálculo (não discutido aqui) para chegar a um intervalo de confiança de 95%. Um intervalo de confiança de 95% incluiria pesos médios entre 33 kg e 48 kg.

Em outras palavras, há uma boa razão para acreditar que o peso médio para toda a população norte-americana de crianças de 10 anos ficaria entre 33 kg e 48 kg porque, depois de colher amostras repetidas com o intervalo de confiança de 95% calculado para cada amostra, 95% das vezes os intervalos conteriam a verdadeira média.

Isso também indica, no entanto, que em 5% das vezes os intervalos não conterão a verdadeira média.

Exemplos do mundo real de ver a incerteza

Alberto Cairo, mencionado anteriormente nesta unidade, escreveu uma série de artigos de blog descrevendo exemplos do mundo real de como a incerteza tem sido representada (e malcompreendida) em visualizações que ilustram caminhos de furacões. Você pode acessar uma postagem no blog sobre a interpretação errada dos mapas de previsão da tempestade de categoria 5 de 2019, o furacão Dorian, além de outros tópicos relacionados no site profissional de Alberto Cairo.

Você agora está familiarizado com distribuições contínuas, incluindo a forma especial da curva normal. Na próxima unidade, examinaremos o conceito de teste de hipóteses ao usar amostras de dados.

Tempo estimado

Tópicos

Procurando ajuda?

Tableau Recursos