선형 회귀를 사용하여 관계 확인
학습 목표
이 유닛을 완료하면 다음을 수행할 수 있습니다.
- 선형 회귀를 정의할 수 있습니다.
- 상관관계와 선형 회귀의 특성을 구별할 수 있습니다.
선형 회귀란 무엇인가요?
이전 유닛에서는 상관관계가 두 정량적 변수 간의 관계의 방향(양 또는 음)과 강도(매우 강함에서 매우 약함)를 의미한다는 것을 알아봤습니다.
상관관계와 마찬가지로 선형 회귀도 두 숫자 변수 간 관계의 방향과 강도를 표시합니다. 하지만 상관관계와 다르게 회귀는 산점도에서 점을 통과하는 가장 알맞은 직선을 사용하여 X값에서 Y값을 예측합니다. 상관관계로 X 및 Y의 값은 교환 가능합니다. 회귀에서 X와 Y가 교환되는 경우 분석 결과는 변경됩니다.
선형 회귀선
상관관계와 마찬가지로 회귀로 유의미한 결과를 얻으려면 다음 조건이 충족되어야 합니다.
- 정량적 변수 사용
- 선형적 관계의 존재 여부 확인
- 이상값에 주의할 것
상관관계와 마찬가지로 선형 회귀 분석도 산점도에서 시각화됩니다.
산점도의 회귀선은 산점도의 점을 통과하는 가장 적합한 선입니다. 즉, 각 점에서 선까지의 거리가 가장 작은 점을 통과하는 선입니다.
이 선이 유용한 이유는 무엇인가요? 알고 있는 X 값이 있는 경우 선형 회귀 계산을 사용하여 Y 값을 계산하거나 예측할 수 있습니다.
좀 더 명확히 하기 위해 예시를 들어보겠습니다.
회귀 예제
1,500 평방 피트의 주택을 구입하기 위해 얼마나 지출해야 하는지 예측하고 싶다고 가정해 보겠습니다. 선형 회귀를 사용하여 예측해 보겠습니다.
- 예측할 변수인 주택 가격을 y축(종속 변수라고도 함)에 놓습니다.
- 예측하는 변수를 x축(독립 변수라고도 함)의 제곱근에 놓습니다.
다음은 주택값(y축)과 평방피트(x축)를 보여주는 산점도입니다.
산점도는 더 많은 평방 피트를 가진 주택 가격이 더 높은 경향이 있다는 것을 보여줍니다. 하지만 1,500 평방 피트의 주택에 얼마나 지출해야 할까요?
이 질문에 답할 수 있도록 점을 연결하는 선을 만듭니다. 이는 선형 회귀입니다. 회귀선은 특정 평방 피트의 일반적인 주택의 가격을 예측하는 데 도움이 됩니다. 이 예에서는 회귀선의 방정식을 볼 수 있습니다.
직선의 방정식은 Y = 113*X + 98,653(반올림)입니다.
이 방정식은 무엇을 의미하나요? 평방피트(예: 빈 부지)가 없는 주택을 구입했다면 가격은 $ 98,653입니다. 방정식을 푸는 방법은 다음과 같습니다.
Y를 찾으려면 X의 값에 113을 곱한 다음 98,653을 더합니다. 이 경우에는 제곱근이 없으므로 x의 값은 0입니다.
- Y =(113 * 0) + 98,653
- Y = 0 + 98,653
- Y = 98,653
98,653의 값은 선이 y축을 가로지르는 위치이기 때문에 y절편이라고 불립니다. X가 0인 경우 Y의 값입니다.
숫자 113은 선의 기울기입니다. 기울기는 선의 방향과 기울기를 모두 설명하는 숫자입니다. 이 경우 기울기는 추가 평방 피트마다 주택 가격이 $ 113 증가할 것으로 예측합니다.
1,500평방피트의 주택을 짓는 데 필요한 비용은 다음과 같습니다.
Y =(113 * 1500) + 98,653 = $268,153
이 산점도를 다시 살펴보겠습니다. 파란색 표식은 실제 데이터입니다. 1,100 ~ 2,450평방 피트의 주택에 대한 데이터를 볼 수 있습니다.
이 방정식은 모든 주택의 가격을 예측하는 데 사용될 수 없습니다. 500평방피트의 주택과 10,000평방피트의 주택이 모두 실제 데이터 범위를 벗어났으므로 이 방정식을 사용하여 이러한 값을 예측하는 데 주의해야 합니다.
R 제곱 값
이 예의 방정식에 이어 r 제곱값(결정 계수라고도 함) 값도 확인합니다.
이 값은 데이터가 회귀선과 얼마나 가까운지, 또는 모델이 관찰된 내용에 얼마나 적합한지를 나타내는 통계적 척도입니다. 데이터가 완벽하게 라인에 있는 경우 r 제곱 값은 1 또는 100%가 됩니다. 즉, 모델이 완벽하게 맞습니다(관찰된 모든 데이터 지점이 라인에 있음).
주택 가격 데이터의 경우 r 제곱 값은 0.70 또는 70%입니다.
선형 회귀와 상관관계 비교
선형 회귀와 상관관계를 어떻게 구별해야 하는지에 대해 궁금할 수 있습니다. 각 개념의 요약을 보려면 아래 표를 참조하세요.
선형 회귀 | 상관관계 |
---|---|
X로부터 Y를 예측하는 선형 모델 및 예측을 보여줍니다. |
두 값 사이의 선형 관계를 표시합니다. |
모델에 의해 설명되는 변수의 백분율을 측정하기 위해 r 제곱을 사용합니다. |
상관관계의 강도 및 방향을 측정하기 위해 r을 사용합니다. |
X와 Y를 교환 가능한 값으로 사용하지 않습니다. Y는 X로부터 예측되기 때문입니다. |
X와 Y를 교환 가능한 값으로 사용합니다. |
상관관계와 회귀의 통계적 개념을 숙지하면 관계를 조사하여 작업한 데이터를 탐색하고 이해하는 데 도움이 됩니다.