Skip to main content
Join the Agentforce Hackathon on Nov. 18-19 to compete for a $20,000 Grand Prize. Sign up now. Terms apply.

선형 회귀를 사용하여 관계 확인

학습 목표

이 유닛을 완료하면 다음을 수행할 수 있습니다.

  • 선형 회귀를 정의할 수 있습니다.
  • 상관관계와 선형 회귀의 특성을 구별할 수 있습니다.

선형 회귀란 무엇인가요?

이전 유닛에서는 상관관계가 두 정량적 변수 간의 관계의 방향(양 또는 음)과 강도(매우 강함에서 매우 약함)를 의미한다는 것을 알아봤습니다. 

상관관계와 마찬가지로 선형 회귀도 두 숫자 변수 간 관계의 방향과 강도를 표시합니다. 하지만 상관관계와 다르게 회귀는 산점도에서 점을 통과하는 가장 알맞은 직선을 사용하여 X값에서 Y값을 예측합니다. 상관관계로 X 및 Y의 값은 교환 가능합니다. 회귀에서 X와 Y가 교환되는 경우 분석 결과는 변경됩니다.

참고

이 유닛에서 소개하는 개념은 통계학 입문을 참고했습니다.

선형 회귀선

상관관계와 마찬가지로 회귀로 유의미한 결과를 얻으려면 다음 조건이 충족되어야 합니다.

  • 정량적 변수 사용
  • 선형적 관계의 존재 여부 확인
  • 이상값에 주의할 것

상관관계와 마찬가지로 선형 회귀 분석도 산점도에서 시각화됩니다. 

산점도의 회귀선은 산점도의 점을 통과하는 가장 적합한 선입니다. 즉, 각 점에서 선까지의 거리가 가장 작은 점을 통과하는 선입니다. 

이 선이 유용한 이유는 무엇인가요? 알고 있는 X 값이 있는 경우 선형 회귀 계산을 사용하여 Y 값을 계산하거나 예측할 수 있습니다.

좀 더 명확히 하기 위해 예시를 들어보겠습니다.

회귀 예제

1,500 평방 피트의 주택을 구입하기 위해 얼마나 지출해야 하는지 예측하고 싶다고 가정해 보겠습니다. 선형 회귀를 사용하여 예측해 보겠습니다.

  • 예측할 변수인 주택 가격을 y축(종속 변수라고도 함)에 놓습니다.
  • 예측하는 변수를 x축(독립 변수라고도 함)의 제곱근에 놓습니다.

다음은 주택값(y축)과 평방피트(x축)를 보여주는 산점도입니다.

집값(y축)과 평방피트(x축)를 나타내는 파란색 표식이 있는 산점도

산점도는 더 많은 평방 피트를 가진 주택 가격이 더 높은 경향이 있다는 것을 보여줍니다. 하지만 1,500 평방 피트의 주택에 얼마나 지출해야 할까요?

이 질문에 답할 수 있도록 점을 연결하는 선을 만듭니다. 이는 선형 회귀입니다. 회귀선은 특정 평방 피트의 일반적인 주택의 가격을 예측하는 데 도움이 됩니다. 이 예에서는 회귀선의 방정식을 볼 수 있습니다.

회귀선에 대한 방정식이 강조 표시됩니다.

직선의 방정식은 Y = 113*X + 98,653(반올림)입니다.

이 방정식은 무엇을 의미하나요? 평방피트(예: 빈 부지)가 없는 주택을 구입했다면 가격은 $ 98,653입니다. 방정식을 푸는 방법은 다음과 같습니다.

Y를 찾으려면 X의 값에 113을 곱한 다음 98,653을 더합니다. 이 경우에는 제곱근이 없으므로 x의 값은 0입니다.

  • Y =(113 * 0) + 98,653
  • Y = 0 + 98,653
  • Y = 98,653

98,653의 값은 선이 y축을 가로지르는 위치이기 때문에 y절편이라고 불립니다. X가 0인 경우 Y의 값입니다.

숫자 113은 선의 기울기입니다. 기울기는 선의 방향과 기울기를 모두 설명하는 숫자입니다. 이 경우 기울기는 추가 평방 피트마다 주택 가격이 $ 113 증가할 것으로 예측합니다.

1,500평방피트의 주택을 짓는 데 필요한 비용은 다음과 같습니다.

Y =(113 * 1500) + 98,653 = $268,153

이 산점도를 다시 살펴보겠습니다. 파란색 표식은 실제 데이터입니다. 1,100 ~ 2,450평방 피트의 주택에 대한 데이터를 볼 수 있습니다.

파란색 표식이 있는 산점도, 회색 회귀선, 회귀선에서 X와 Y가 만나는 지점을 나타내는 주황색 선

이 방정식은 모든 주택의 가격을 예측하는 데 사용될 수 없습니다. 500평방피트의 주택과 10,000평방피트의 주택이 모두 실제 데이터 범위를 벗어났으므로 이 방정식을 사용하여 이러한 값을 예측하는 데 주의해야 합니다.

R 제곱 값

이 예의 방정식에 이어 r 제곱값(결정 계수라고도 함) 값도 확인합니다.

회귀선에 대한 r 제곱 값이 강조 표시됩니다.

이 값은 데이터가 회귀선과 얼마나 가까운지, 또는 모델이 관찰된 내용에 얼마나 적합한지를 나타내는 통계적 척도입니다. 데이터가 완벽하게 라인에 있는 경우 r 제곱 값은 1 또는 100%가 됩니다. 즉, 모델이 완벽하게 맞습니다(관찰된 모든 데이터 지점이 라인에 있음).

주택 가격 데이터의 경우 r 제곱 값은 0.70 또는 70%입니다.

선형 회귀와 상관관계 비교

선형 회귀와 상관관계를 어떻게 구별해야 하는지에 대해 궁금할 수 있습니다. 각 개념의 요약을 보려면 아래 표를 참조하세요.

선형 회귀 상관관계

X로부터 Y를 예측하는 선형 모델 및 예측을 보여줍니다.

두 값 사이의 선형 관계를 표시합니다.

모델에 의해 설명되는 변수의 백분율을 측정하기 위해 r 제곱을 사용합니다.

상관관계의 강도 및 방향을 측정하기 위해 r을 사용합니다.


X와 Y를 교환 가능한 값으로 사용하지 않습니다. Y는 X로부터 예측되기 때문입니다.

X와 Y를 교환 가능한 값으로 사용합니다.

상관관계와 회귀의 통계적 개념을 숙지하면 관계를 조사하여 작업한 데이터를 탐색하고 이해하는 데 도움이 됩니다.

리소스

Salesforce 도움말에서 Trailhead 피드백을 공유하세요.

Trailhead에 관한 여러분의 의견에 귀 기울이겠습니다. 이제 Salesforce 도움말 사이트에서 언제든지 새로운 피드백 양식을 작성할 수 있습니다.

자세히 알아보기 의견 공유하기