Skip to main content

데이터에서 상관관계 검사

학습 목표

이 유닛을 완료하면 다음을 수행할 수 있습니다.

  • 상관관계를 정의할 수 있습니다.
  • 강한 상관관계와 약한 상관관계를 구분할 수 있습니다.

데이터 유창성을 향한 여정

데이터 리터러시는 데이터를 편리하게 사용하고 데이터로 소통하기 위한 토대입니다.

데이터 리터러시 기본사항 모듈은 정량적 변수를 매일 텔레비전을 시청하는 데 소요되는 시간, 시간당 마일로 측정되는 속도, 도시의 연간 총 강우량, 달러화 판매량, 마케팅 비용 등 수치로 측정할 수 있는 특성으로 설명합니다.

데이터 내의 관계를 조사할 경우 판매량과 마케팅에 소비된 양과 같은 두 변수가 얼마나 밀접한 관련이 있는지 어떻게 판단하나요? 하나의 변수를 사용하여 다른 변수를 예측할 수 있나요?

상관관계와 회귀는 중요한 기법으로서 추세를 발견하고 예측을 하는 데 사용됩니다. 분석에서 활용되는 다른 중요한 기법도 존재하지만, 여기서는 AI 및 분석에서 활용되는 가장 단순한 형태의 기법인 선형 상관관계 및 회귀에 초점을 맞추겠습니다.

이 유닛에서는 두 변수가 서로 얼마나 긴밀하게 움직이는지 설명하는 상관관계의 개념을 익히게 됩니다. 상관관계가 연관성을 어떻게 측정하는지 이해하지만 인과관계를 증명하지는 않습니다. 다음 유닛에서는 기본 이 모델이 데이터에 얼마나 적합한지 측정하는 것 외에도 선형 회귀를 사용하여 한 변수를 기반으로 다른 변수의 값을 계산하거나 예측하는 방법을 살펴봅니다.

상관관계란 무엇인가요?

상관관계는 정량적 변수 쌍이 관련있는지 여부와 관련성이 얼마나 강한지를 보여줄 수 있는 기술입니다.

Note

이 유닛에서는 Pearson의 상관관계에 대해 살펴보겠습니다. 다른 비선형 상관관계도 있지만 이 유닛에서는 다루지 않습니다.

예를 들어 공부한 시간과 기말시험 점수 사이에는 관계가 있을까요? 더 오랜 시간 공부한 학생들이 일관되게 더 높은 성적을 받을까요? 상관관계는 학업 성취도가 학업 준비에 투자한 시간과 얼마나 밀접하게 관련되어 있는지를 알려 줍니다.

공부 시간과 시험 결과 간의 상관관계는 간단한 예이지만, 때로는 작업한 데이터가 예상과 다른 상관성을 가질 수도 있습니다. 어떤 경우가 가장 상관관계가 강한지 모르고 상관관계를 의심할 수 있습니다. 상관관계 분석은 데이터를 이해하는 데 도움이 됩니다.

상관관계 분석을 시작할 때는 두 개의 정량적 변수 사이의 관계를 조사하기 위해 산점도를 만들 수 있습니다. 변수들을 좌표평면에 표시함으로써 각 데이터 포인트가 가로 X축과 세로 Y축을 기준으로 어디에 위치하는지를 나타낼 수 있습니다. 아래의 산점도에서 매출과 마케팅에 지출한 금액 간의 관계를 확인할 수 있습니다. 상관관계가 있는 것 같습니다. 한 변수가 올라가면 다른 변수도 올라가는 것처럼 보입니다.

두 정량적 변수 사이의 상관관계를 나타내는 산점도

Note

이 유닛에서 소개하는 개념은 온라인에 공개된 David M. Lane의 자유 이용 저작물 저서인 통계학 입문을 참고했습니다.

상관관계와 인과관계 비교

상관관계가 어떻게 정의되고 그래픽으로 표현되는지 알았으므로 상관관계를 더 잘 이해하는 방법에 대해 논의해 보겠습니다.

첫째, 상관관계가 인과관계를 증명하지 않는 것을 아는 것이 중요합니다.

Pearson 상관관계는 한 쌍의 정량적 변수가 얼마나 강하게 선형적으로 관련되어 있는지를 알려줍니다. 어떻게 또는 왜 관련되어 있는지 설명하지 않습니다.

예를 들어 에어컨의 판매는 자외선 차단제의 판매와 관련이 있습니다. 사람들은 자외선 차단제를 샀으므로 에어컨을 사지 않거나 그 반대의 경우에도 마찬가지입니다. 두 구매 원인은 더운 날씨입니다.

상관관계는 어떻게 측정되나요?

Pearson 상관관계상관관계 계수라고도 부르며, 두 정량적 변수 사이의 선형 관계의 강도 및 방향(양수 또는 음수)을 측정하는 데 사용됩니다. 데이터의 표본에서 상관관계를 측정할 때 사용되는 기호는 문자 r입니다. Pearson의 r 범위는 -1에서 1까지입니다.

r = 1인 경우 변수 사이에 완벽한 양의 선형 관계가 존재하며, 이는 값이 증가함에 따라 두 변수가 완벽하게 상관관계를 갖는다는 것을 의미합니다. r = -1인 경우 변수 간 완벽한 음의 선형 관계가 성립합니다. 완벽한 음의 상관관계에서는 변수 하나가 증가하면 나머지 하나의 변수가 그만큼 감소합니다. r = 0인 경우 변수 사이의 선형 관계는 표시되지 않습니다.

실제 데이터에서는 r 값이 -1, 0 또는 1이라는 것을 예상할 수 없습니다.

일반적으로 r이 1에 가까울수록 또는 -1에 가까울수록 다음 표에서와 같이 상관관계가 더 강합니다.

r =

상관관계

0.90 내지 1

또는

-0.90 내지 -1

매우 강한 상관관계

0.70 내지 0.89

또는

-0.70 내지 -0.89

강한 상관관계

0.40 내지 0.69

또는

-0.40 내지 -0.69

중간 수준의 상관관계

0.20 내지 0.39

또는

-0.20 내지 -0.39

약한 상관관계

0 내지 0.19

또는

0 내지 -0.19

매우 약하거나 상관관계가 없음

Note

이 주제의 일부 리소스는 상관관계를 단순히 강하거나, 보통이거나, 약한 것으로 분류합니다.

선형 상관관계 조건

상관관계가 유의미해지려면 몇 가지 조건을 고려해야 합니다. 즉, 정량적 변수를 사용하고, 선형 관계를 설명하고, 이상값의 효과를 고려해야 합니다. 따라서 상관관계 분석을 하기 전에 이 조건들을 확인해 보아야 합니다. .

1973년, Francis Anscombe이라는 통계학자가 Anscombe 's Quartet을 개발하여 단순히 통계 테스트를 실행하는 것이 아니라 데이터를 시각적으로 그래프를 그리는 것의 중요성을 보여주었습니다. Anscombe의 Quartet에서 확인할 수 있는 네 가지 시각화는 모두 동일한 추세선 방정식을 표시합니다. Quartet은 시각화가 왜 중요한지 보여줍니다. 시각화는 통계 테스트에 의해 가려질 수 있는 데이터 내 동향을 파악하는 데 도움이 됩니다.

아래 예에서 Quartet의 왼쪽 상단 산점도만 이상점 없이 선형이라는 기준을 충족합니다. 우측 상단의 산점도에서는 선형적 관계가 확인되지 않으므로 비선형 모델이 더욱 적합합니다. 아래에 위치한 두 개의 산점도에는 각각 판이하게 다른 결론을 유도할 수 있는 이상점이 존재합니다. 

왼쪽 상단에 있는 산점도가 강조 표시된 4개의 산점도는 이상점이 없는 선형 관계를 보여줍니다.

상관관계의 통계적 기법에 대한 개념에 더 익숙해졌으므로 다음 유닛에서는 선형 회귀에 대해 알아보겠습니다.

리소스

Salesforce 도움말에서 Trailhead 피드백을 공유하세요.

Trailhead에 관한 여러분의 의견에 귀 기울이겠습니다. 이제 Salesforce 도움말 사이트에서 언제든지 새로운 피드백 양식을 작성할 수 있습니다.

자세히 알아보기 의견 공유하기