데이터에서 상관관계 검사
학습 목표
이 유닛을 완료하면 다음을 수행할 수 있습니다.
- 상관관계를 정의할 수 있습니다.
- 강한 상관관계와 약한 상관관계를 구분할 수 있습니다.
데이터 유창성을 향한 여정
데이터 리터러시는 데이터를 편리하게 사용하고 데이터로 소통하기 위한 토대입니다.
데이터 리터러시 기본사항 모듈은 정량적 변수를 매일 텔레비전을 시청하는 데 소요되는 시간, 시간당 마일로 측정되는 속도, 도시의 연간 총 강우량, 달러화 판매량, 마케팅 비용 등 수치로 측정할 수 있는 특성으로 설명합니다.
데이터 내의 관계를 조사할 경우 판매량과 마케팅에 소비된 양과 같은 두 변수가 얼마나 밀접한 관련이 있는지 어떻게 판단하나요? 하나의 변수를 사용하여 다른 변수를 예측할 수 있나요?
상관관계와 회귀는 중요한 기법으로서 추세를 발견하고 예측을 하는 데 사용됩니다. 분석에서 활용되는 다른 중요한 기법도 존재하지만, 여기서는 AI 및 분석에서 활용되는 가장 단순한 형태의 기법인 선형 상관관계 및 회귀에 초점을 맞추겠습니다.
이 유닛에서는 두 변수가 서로 얼마나 긴밀하게 움직이는지 설명하는 상관관계의 개념을 익히게 됩니다. 상관관계가 연관성을 어떻게 측정하는지 이해하지만 인과관계를 증명하지는 않습니다. 다음 유닛에서는 기본 이 모델이 데이터에 얼마나 적합한지 측정하는 것 외에도 선형 회귀를 사용하여 한 변수를 기반으로 다른 변수의 값을 계산하거나 예측하는 방법을 살펴봅니다.
상관관계란 무엇인가요?
상관관계는 정량적 변수 쌍이 관련있는지 여부와 관련성이 얼마나 강한지를 보여줄 수 있는 기술입니다.
예를 들어 하루 섭취한 칼로리의 수와 체중은 관계가 있나요? 칼로리를 더 많이 섭취한 사람의 체중은 더 많이 나가나요? 상관관계를 통해 사람들의 체중이 칼로리 섭취량과 얼마나 관련이 있는지 살펴볼 수 있습니다.
체중과 칼로리 섭취량 간의 상관관계는 간단한 예이지만, 때로는 작업한 데이터가 예상과 다른 관계를 가질 수도 있습니다. 어떤 경우가 가장 상관관계가 강한지 모르고 상관관계를 의심할 수 있습니다. 상관관계 분석은 데이터를 이해하는 데 도움이 됩니다.
상관관계 분석을 시작할 때는 두 개의 정량적 변수 사이의 관계를 조사하기 위해 산점도를 만들 수 있습니다. 변수들을 좌표평면에 표시함으로써 각 데이터 포인트가 가로 X축과 세로 Y축을 기준으로 어디에 위치하는지를 나타낼 수 있습니다. 아래의 산점도에서 매출과 마케팅에 지출한 금액 간의 관계를 확인할 수 있습니다. 상관관계가 있는 것 같습니다. 한 변수가 올라가면 다른 변수도 올라가는 것처럼 보입니다.
상관관계와 인과관계 비교
상관관계가 어떻게 정의되고 그래픽으로 표현되는지 알았으므로 상관관계를 더 잘 이해하는 방법에 대해 논의해 보겠습니다.
첫째, 상관관계가 인과관계를 증명하지 않는 것을 아는 것이 중요합니다.
Pearson 상관관계는 한 쌍의 정량적 변수가 얼마나 강하게 선형적으로 관련되어 있는지를 알려줍니다. 어떻게 또는 왜 관련되어 있는지 설명하지 않습니다.
예를 들어 에어컨의 판매는 자외선 차단제의 판매와 관련이 있습니다. 사람들은 자외선 차단제를 샀으므로 에어컨을 사지 않거나 그 반대의 경우에도 마찬가지입니다. 두 구매 원인은 더운 날씨입니다.
상관관계는 어떻게 측정되나요?
Pearson 상관관계는 상관관계 계수라고도 부르며, 두 정량적 변수 사이의 선형 관계의 강도 및 방향(양수 또는 음수)을 측정하는 데 사용됩니다. 데이터의 표본에서 상관관계를 측정할 때 사용되는 기호는 문자 r입니다. Pearson의 r 범위는 -1에서 1까지입니다.
r = 1인 경우 변수 사이에 완벽한 양의 선형 관계가 존재하며, 이는 값이 증가함에 따라 두 변수가 완벽하게 상관관계를 갖는다는 것을 의미합니다. r = -1인 경우 변수 간 완벽한 음의 선형 관계가 성립합니다. 완벽한 음의 상관관계에서는 변수 하나가 증가하면 나머지 하나의 변수가 그만큼 감소합니다. r = 0인 경우 변수 사이의 선형 관계는 표시되지 않습니다.
실제 데이터에서는 r 값이 -1, 0 또는 1이라는 것을 예상할 수 없습니다.
일반적으로 r이 1에 가까울수록 또는 -1에 가까울수록 다음 표에서와 같이 상관관계가 더 강합니다.
r = | 상관관계 |
---|---|
0.90 내지 1 또는 -0.90 내지 -1 |
매우 강한 상관관계 |
0.70 내지 0.89 또는 -0.70 내지 -0.89 |
강한 상관관계 |
0.40 내지 0.69 또는 -0.40 내지 -0.69 |
중간 수준의 상관관계 |
0.20 내지 0.39 또는 -0.20 내지 -0.39 |
약한 상관관계 |
0 내지 0.19 또는 0 내지 -0.19 |
매우 약하거나 상관관계가 없음 |
선형 상관관계 조건
상관관계가 유의미해지려면 몇 가지 조건을 고려해야 합니다. 즉, 정량적 변수를 사용하고, 선형 관계를 설명하고, 이상값의 효과를 고려해야 합니다. 따라서 상관관계 분석을 하기 전에 이 조건들을 확인해 보아야 합니다.
1973년, Francis Anscombe이라는 통계학자가 Anscombe 's Quartet을 개발하여 단순히 통계 테스트를 실행하는 것이 아니라 데이터를 시각적으로 그래프를 그리는 것의 중요성을 보여주었습니다. Anscombe의 Quartet에서 확인할 수 있는 네 가지 시각화는 모두 동일한 추세선 방정식을 표시합니다. Quartet은 시각화가 왜 중요한지 보여줍니다. 시각화는 통계 테스트에 의해 가려질 수 있는 데이터 내 동향을 파악하는 데 도움이 됩니다.
아래 예에서 Quartet의 왼쪽 상단 산점도만 이상점 없이 선형이라는 기준을 충족합니다. 우측 상단의 산점도에서는 선형적 관계가 확인되지 않으므로 비선형 모델이 더욱 적합합니다. 아래에 위치한 두 개의 산점도에는 각각 판이하게 다른 결론을 유도할 수 있는 이상점이 존재합니다.
상관관계의 통계적 기법에 대한 개념에 더 익숙해졌으므로 다음 유닛에서는 선형 회귀에 대해 알아보겠습니다.