Skip to main content
Build the future with Agentforce at TDX in San Francisco or on Salesforce+ on March 5–6. Register now.

Descobrir relacionamentos usando regressão linear

Objetivos de aprendizagem

Após concluir esta unidade, você estará apto a:

  • Definir regressão linear.
  • Diferenciar características de correlação e regressão linear.

O que é regressão linear?

Na unidade anterior, você aprendeu que a correlação refere-se à direção (positiva ou negativa) e à força (muito forte a muito fraca) da relação entre duas variáveis quantitativas. 

Assim como a correlação, a regressão linear também mostra a direção e a força do relacionamento entre duas variáveis numéricas, mas ao contrário da correlação, a regressão também usa a linha reta mais adequada pelos pontos em um gráfico de dispersão para prever os valores Y a partir dos valores X. Com a correlação, os valores de X e Y são intercambiáveis. Com a regressão, os resultados da análise mudarão se X e Y forem trocados.

Observação

Os conceitos desta unidade são adaptados de Introdução à Estatística.

A linha de regressão linear

Assim como nas correlações, para que as regressões sejam significativas, você deve:

  • Usar variáveis quantitativas
  • Verificar se há relacionamentos lineares
  • Procurar por discrepâncias

Assim como a correlação, a regressão linear é visualizada em um gráfico de dispersão. 

A linha de regressão no gráfico de dispersão é a linha reta mais adequada pelos pontos no gráfico de dispersão. Em outras palavras, é uma linha que passa pelos pontos com a menor quantidade de distância de cada ponto até a linha. 

Por que essa linha é útil? Podemos usar o cálculo de regressão linear para calcular, ou prever, nosso valor Y se temos um valor X conhecido.

Para deixar isso mais claro, vamos ver um exemplo.

Um exemplo de regressão

Digamos que você queira prever quanto vai precisar gastar para comprar uma casa que tenha 1.500 metros quadrados. Vamos usar regressão linear para prever isso.

  • Coloque a variável que você deseja prever, os preços das casas, no eixo Y (isso também é chamado de variável dependente).
  • Coloque a variável em que você está baseando suas previsões, metros quadrados, no eixo X (isso também é chamado de variável independente).

Aqui está um gráfico de dispersão mostrando os preços das casas (eixo Y) e os metros quadrados (eixo X).

Um gráfico de dispersão com marcas azuis mostrando preços de casas (eixo Y) e metros quadrados (eixo X)

O gráfico de dispersão mostra que casas com mais metros quadrados tendem a ter preços mais altos, mas quanto você terá que gastar para uma casa que mede 1.500 metros quadrados?

Para ajudar a responder a essa pergunta, crie uma linha passando pelos pontos. Isso é regressão linear. A linha de regressão vai ajudá-lo a prever o que uma casa típica com determinados metros quadrados vai custar. Neste exemplo, você pode ver a equação para a linha de regressão.

A equação para a linha de regressão está em destaque.

A equação para a linha é Y = 113*X + 98.653 (arredondado).

O que significa essa equação? Se você comprasse um lugar sem metros quadrados (um lote vazio, por exemplo), o preço seria de US$ 98.653. Aqui estão as etapas para ver como a equação é resolvida.

Para encontrar Y, multiplique o valor de X por 113 e, em seguida, adicione 98.653. Neste caso, não estamos vendo nenhuma metragem quadrada, ou seja, o valor de X é 0.

  • Y = (113 * 0) + 98.653
  • Y = 0 + 98.653
  • Y = 98.653

O valor 98.653 é chamado de interceptação y porque é aqui que a linha cruza, ou intercepta, o eixo Y. É o valor de Y quando X é igual a 0.

O número 113 é a inclinação da linha. Inclinação é um número que descreve tanto a direção quanto o grau de inclinação da linha. Neste caso, a inclinação prevê que para cada metro quadrado adicional, o preço da casa aumentará em US$ 113.

Ou seja, aqui está o que você precisa gastar em uma casa de 1.500 metros quadrados:

Y = (113 * 1500) + 98.653 = US$ 268.153

Dê outra olhada neste gráfico de dispersão. As marcas azuis são os dados reais. Você pode ver que tem dados para casas entre 1.100 e 2.450 metros quadrados.

Um gráfico de dispersão com marcas azuis, uma linha de regressão cinza e linhas laranjas mostrando onde X e Y se encontram na linha de regressão

Note que essa equação não pode ser usada para prever o preço de todas as casas. Como uma casa de 500 metros quadrados e uma casa de 10.000 metros quadrados estão fora do alcance dos dados reais, você precisaria ter cuidado ao fazer previsões com esses valores usando essa equação.

O valor r2

Além da equação neste exemplo, também vemos um valor r2 (também conhecido como coeficiente de determinação).

O valor r<sup>2</sup> para a linha de regressão está em destaque.

Esse valor é uma medida estatística de quão perto os dados estão da linha de regressão, ou quão bem o modelo se encaixa em suas observações. Se os dados estiverem perfeitamente em linha, o valor r2 seria de 1, ou 100%, o que significa que seu modelo se encaixa perfeitamente (todos os pontos de dados observados estão na linha).

Para nossos dados de preço residencial, o valor r2 é de 0,70, ou 70%.

Regressão linear X Correlação

Você pode estar se perguntando como distinguir entre regressão linear e correlação. Veja a tabela abaixo para ver um resumo de cada conceito.

Regressão linear Correlação

Mostra um modelo linear e uma previsão, prevendo Y de X.

Mostra uma relação linear entre dois valores.

Usa r2 para medir o percentual de variação explicado pelo modelo.

Usa r para medir a força e a direção da correlação.


Não usa X e Y como valores intercambiáveis (porque Y é previsto com base em X).

Usa X e Y como valores intercambiáveis.

Estar familiarizado com os conceitos estatísticos de correlação e regressão ajuda você a explorar e entender os dados com os quais trabalha examinando relacionamentos.

Recursos

Compartilhe seu feedback do Trailhead usando a Ajuda do Salesforce.

Queremos saber sobre sua experiência com o Trailhead. Agora você pode acessar o novo formulário de feedback, a qualquer momento, no site Ajuda do Salesforce.

Saiba mais Continue compartilhando feedback