Skip to main content
Join the Agentforce Hackathon on Nov. 18-19 to compete for a $20,000 Grand Prize. Sign up now. Terms apply.

데이터에서 상관관계 검사

학습 목표

이 유닛을 완료하면 다음을 수행할 수 있습니다.

  • 상관관계를 정의할 수 있습니다.
  • 강한 상관관계와 약한 상관관계를 구분할 수 있습니다.

데이터 유창성을 향한 여정

데이터 리터러시는 데이터를 편리하게 사용하고 데이터로 소통하기 위한 토대입니다. 

데이터 리터러시 기본사항 모듈은 정량적 변수를 매일 텔레비전을 시청하는 데 소요되는 시간, 시간당 마일로 측정되는 속도, 도시의 연간 총 강우량, 달러화 판매량, 마케팅 비용 등 수치로 측정할 수 있는 특성으로 설명합니다.

데이터 내의 관계를 조사할 경우 판매량과 마케팅에 소비된 양과 같은 두 변수가 얼마나 밀접한 관련이 있는지 어떻게 판단하나요? 하나의 변수를 사용하여 다른 변수를 예측할 수 있나요? 

상관관계와 회귀는 중요한 기법으로서 추세를 발견하고 예측을 하는 데 사용됩니다. 분석에서 활용되는 다른 중요한 기법도 존재하지만, 여기서는 AI 및 분석에서 활용되는 가장 단순한 형태의 기법인 선형 상관관계 및 회귀에 초점을 맞추겠습니다.

이 유닛에서는 두 변수가 서로 얼마나 긴밀하게 움직이는지 설명하는 상관관계의 개념을 익히게 됩니다. 상관관계가 연관성을 어떻게 측정하는지 이해하지만 인과관계를 증명하지는 않습니다. 다음 유닛에서는 기본 이 모델이 데이터에 얼마나 적합한지 측정하는 것 외에도 선형 회귀를 사용하여 한 변수를 기반으로 다른 변수의 값을 계산하거나 예측하는 방법을 살펴봅니다. 

상관관계란 무엇인가요?

상관관계는 정량적 변수 쌍이 관련있는지 여부와 관련성이 얼마나 강한지를 보여줄 수 있는 기술입니다. 

참고

이 유닛에서는 Pearson의 상관관계에 대해 살펴보겠습니다. 다른 비선형 상관관계도 있지만 이 유닛에서는 다루지 않습니다.

예를 들어 하루 섭취한 칼로리의 수와 체중은 관계가 있나요? 칼로리를 더 많이 섭취한 사람의 체중은 더 많이 나가나요? 상관관계를 통해 사람들의 체중이 칼로리 섭취량과 얼마나 관련이 있는지 살펴볼 수 있습니다.

체중과 칼로리 섭취량 간의 상관관계는 간단한 예이지만, 때로는 작업한 데이터가 예상과 다른 관계를 가질 수도 있습니다. 어떤 경우가 가장 상관관계가 강한지 모르고 상관관계를 의심할 수 있습니다. 상관관계 분석은 데이터를 이해하는 데 도움이 됩니다.

상관관계 분석을 시작할 때는 두 개의 정량적 변수 사이의 관계를 조사하기 위해 산점도를 만들 수 있습니다. 변수들을 좌표평면에 표시함으로써 각 데이터 포인트가 가로 X축과 세로 Y축을 기준으로 어디에 위치하는지를 나타낼 수 있습니다. 아래의 산점도에서 매출과 마케팅에 지출한 금액 간의 관계를 확인할 수 있습니다. 상관관계가 있는 것 같습니다. 한 변수가 올라가면 다른 변수도 올라가는 것처럼 보입니다.

두 정량적 변수 사이의 상관관계를 나타내는 산점도

참고

이 유닛에서 소개하는 개념은 온라인에 공개된 David M. Lane의 자유 이용 저작물 저서인 Introduction to Statistics을 참고했습니다.

상관관계와 인과관계 비교

상관관계가 어떻게 정의되고 그래픽으로 표현되는지 알았으므로 상관관계를 더 잘 이해하는 방법에 대해 논의해 보겠습니다. 

첫째, 상관관계가 인과관계를 증명하지 않는 것을 아는 것이 중요합니다. 

Pearson 상관관계는 한 쌍의 정량적 변수가 얼마나 강하게 선형적으로 관련되어 있는지를 알려줍니다. 어떻게 또는 왜 관련되어 있는지 설명하지 않습니다. 

예를 들어 에어컨의 판매는 자외선 차단제의 판매와 관련이 있습니다. 사람들은 자외선 차단제를 샀으므로 에어컨을 사지 않거나 그 반대의 경우에도 마찬가지입니다. 두 구매 원인은 더운 날씨입니다.

상관관계는 어떻게 측정되나요?

Pearson 상관관계상관관계 계수라고도 부르며, 두 정량적 변수 사이의 선형 관계의 강도 및 방향(양수 또는 음수)을 측정하는 데 사용됩니다. 데이터의 표본에서 상관관계를 측정할 때 사용되는 기호는 문자 r입니다. Pearson의 r 범위는 -1에서 1까지입니다. 

r = 1인 경우 변수 사이에 완벽한 양의 선형 관계가 존재하며, 이는 값이 증가함에 따라 두 변수가 완벽하게 상관관계를 갖는다는 것을 의미합니다. r = -1인 경우 변수 간 완벽한 음의 선형 관계가 성립합니다. 완벽한 음의 상관관계에서는 변수 하나가 증가하면 나머지 하나의 변수가 그만큼 감소합니다.  r = 0인 경우 변수 사이의 선형 관계는 표시되지 않습니다.

실제 데이터에서는 r 값이 -1, 0 또는 1이라는 것을 예상할 수 없습니다. 

일반적으로 r이 1에 가까울수록 또는 -1에 가까울수록 다음 표에서와 같이 상관관계가 더 강합니다.

r = 상관관계

0.90 내지 1

또는

-0.90 내지 -1

매우 강한 상관관계

0.70 내지 0.89

또는

-0.70 내지 -0.89

강한 상관관계

0.40 내지 0.69

또는

-0.40 내지 -0.69

중간 수준의 상관관계

0.20 내지 0.39

또는

-0.20 내지 -0.39

약한 상관관계

0 내지 0.19

또는

0 내지 -0.19

매우 약하거나 상관관계가 없음

참고

이 주제의 일부 리소스는 상관관계를 단순히 강하거나, 보통이거나, 약한 것으로 분류합니다.

선형 상관관계 조건

상관관계가 유의미해지려면 몇 가지 조건을 고려해야 합니다. 즉, 정량적 변수를 사용하고, 선형 관계를 설명하고, 이상값의 효과를 고려해야 합니다. 따라서 상관관계 분석을 하기 전에 이 조건들을 확인해 보아야 합니다. 

1973년, Francis Anscombe이라는 통계학자가 Anscombe 's Quartet을 개발하여 단순히 통계 테스트를 실행하는 것이 아니라 데이터를 시각적으로 그래프를 그리는 것의 중요성을 보여주었습니다. Anscombe의 Quartet에서 확인할 수 있는 네 가지 시각화는 모두 동일한 추세선 방정식을 표시합니다. Quartet은 시각화가 왜 중요한지 보여줍니다. 시각화는 통계 테스트에 의해 가려질 수 있는 데이터 내 동향을 파악하는 데 도움이 됩니다.

아래 예에서 Quartet의 왼쪽 상단 산점도만 이상점 없이 선형이라는 기준을 충족합니다. 우측 상단의 산점도에서는 선형적 관계가 확인되지 않으므로 비선형 모델이 더욱 적합합니다. 아래에 위치한 두 개의 산점도에는 각각 판이하게 다른 결론을 유도할 수 있는 이상점이 존재합니다.  

왼쪽 상단에 있는 산점도가 강조 표시된 4개의 산점도는 이상점이 없는 선형 관계를 보여줍니다.

상관관계의 통계적 기법에 대한 개념에 더 익숙해졌으므로 다음 유닛에서는 선형 회귀에 대해 알아보겠습니다.

리소스

Salesforce 도움말에서 Trailhead 피드백을 공유하세요.

Trailhead에 관한 여러분의 의견에 귀 기울이겠습니다. 이제 Salesforce 도움말 사이트에서 언제든지 새로운 피드백 양식을 작성할 수 있습니다.

자세히 알아보기 의견 공유하기