Skip to main content
Join the Agentforce Hackathon on Nov. 18-19 to compete for a $20,000 Grand Prize. Sign up now. Terms apply.

확률 추정

학습 목표

이 유닛을 완료하면 다음을 수행할 수 있습니다.

  • 연속 분포를 설명할 수 있습니다.
  • 정규 분포의 특징을 설명할 수 있습니다.

개요

데이터 분포 모듈은 히스토그램을 사용하여 연속된 값의 분포를 그래프로 나타낼 수 있음을 보여줍니다. 이제 연속 분포의 개념을 살펴보겠습니다.

이 유닛에서 언급한 계산을 완료하는 데 사용되는 공식에 대해서는 설명하지 않지만 이러한 개념에 대해 일반적으로 숙지하면 데이터 탐색, 이해 및 소통을 계속할 경우 유용할 수 있습니다.

밀도 곡선

데이터 분포 모듈은 히스토그램이 연속 변수의 유한 표본의 분포를 나타내는 방법을 설명합니다. 히스토그램의 각 막대의 높이는 해당 빈 내의 값의 빈도에 비례합니다. 즉, 막대가 높을수록 표본의 데이터 지점이 해당 빈 내에 있는 빈도가 높아집니다.

5개의 빈이 있는 히스토그램예를 들어, 위의 히스토그램은 40명에 대한 신장 분포를 인치 단위로 보여줍니다. 분명히 제한된 수의 데이터 지점이 있는 데이터 표본입니다. 하지만 연속적인 신장 변수에 대한 모든 가능한 값들을 고려할 경우 매우 다양할 수 있습니다. 모든 가능한 신장 값의 빈이 있는 히스토그램을 만들 수 있는 충분한 시간이 없습니다. 이는 임의의 연속 변수에 대해 성립합니다.

연속 변수에 대해 가능한 모든 값을 나타내기 위해 히스토그램을 사용하는 대신 연속 분포를 사용할 수 있습니다. 연속 분포는 매끄러운 곡선처럼 보입니다. 밀도 곡선이라고도 합니다. 밀도 곡선은 특정 표본의 값 이상을 나타냅니다. 모든 가능한 값뿐만 아니라 발생 확률 또는 발생할 가능성이 얼마나 되는지를 나타냅니다.

파란색 밀도 곡선

히스토그램을 살펴볼 때 막대 높이를 사용하여 해당 빈에서 발생하는 데이터 지점의 수 또는 해당 빈 내에서 발생하는 데이터 지점의 빈도를 이해합니다. 그러나 연속형 분포를 보면 확률 곡선의 높이를 이런 식으로 해석할 수 없습니다. 

신장에 대해 가능한 모든 값을 포함하는 데이터를 상상해보세요. 누군가가 정확히 61인치일 가능성에 대해 묻는 것은 의미가 없습니다. 값이 무한한 경우, 61인치에 대해 묻는 것은 61.002인치 또는 60.9997인치일 가능성에 대해 묻는 것과 같습니다.

대신, 해당 구간 내의 곡선 아래의 영역과 같은 구간 내의 확률을 살펴보겠습니다.

곡선 아래의 총 면적은 1 또는 100%입니다. 그 이유는 모든 가능한 값이 곡선 내의 어딘가에 속할 확률이 100%이기 때문입니다.

음영 영역이 있는 밀도 곡선(간격)

요약하자면, 밀도 곡선에 대해 생각할 때 염두에 두어야 할 몇 가지 개념이 있습니다.

  • 곡선 아래의 총 면적은 100% 또는 1입니다.
  • 모든 가능한 데이터 지점을 한 번에 나타내는 연속 분포입니다.
  • Y축은 확률의 밀도를 나타내며, 이는 x축의 대응하는 점 근처의 값을 얻을 확률을 나타냅니다.

정규 분포

이제 특수한 밀도 곡선, 정규 분포 또는 정규 곡선에 대해 더 자세히 살펴보겠습니다. 대칭적인 “종” 모양을 하고 있습니다.

히스토그램에 그려진 연속 변수의 분포를 보면 대칭 분포를 설명하는 법을 배웠습니다. 대칭적으로 분포된 히스토그램을 반으로 접으면 두 변은 완벽하게 일치합니다. 대칭 분포에서, 평균과 중앙값은 같습니다.

대칭 분포와 마찬가지로 정규 분포에서는 모양이 대칭이고 평균 또한 중앙값과 같습니다.

다음은 정규 분포의 주요 특성입니다.

  • 이 값은 평균을 중심으로 대칭을 이룹니다.
  • 평균과 중앙값은 같습니다.
  • 정규 곡선 아래의 면적은 1.0(또는 100%)과 같습니다.
  • 이는 중앙에서 더 밀도가 높고, 꼬리에서는 밀도가 덜 높습니다.
  • 평균과 표준 편차라는 두 가지 매개 변수로 정의됩니다.표준 편차 및 레이블이 지정된 평균뿐만 아니라 데이터의 백분율을 갖는 정규 곡선

위의 곡선에 표시된 정규 분포를 살펴보세요. 정규 분포에서, 데이터의 68%는 평균으로부터 +1 내지 -1 표준 편차에 속하고, 데이터의 95%는 평균으로부터 -2 내지 +2 표준 편차 내에 속합니다. 곡선의 양측에서 짧은 "꼬리”는 매우 적은 값(5%)이 평균으로부터 -2 및 +2 표준 편차를 벗어남을 나타냅니다.

표준 편차가 작은 정규 분포는 표준 편차가 큰 정규 분포보다 곡선이 더 좁고 큽니다. 

이 이미지에서 두 정규 분포 모두 평균이 50입니다. 키가 큰 곡선은 표준 편차가 5이고, 짧은 곡선은 표준 편차가 10입니다.

평균이 50인 두 개의 곡선, 표준 편차가 5인 높은 곡선, 표준 편차가 10인 짧은 곡선

정규 분포의 유용성

정보 설계자이자 교수인 Alberto Cairo는 그의 저서 ‘The Truthful Art’에서 "자연의 어떤 현상도 완벽한 정규 분포를 따르지 않지만 많은 사람들이 통계학의 주요 도구 중 하나로 만들기에 충분히 근사적이다”고 설명합니다. Cairo는 "완벽하지는 않더라도 연구 현상이 정규적으로 분포되어 있다는 것을 알면 어떤 경우든 확률을 추정하거나 합리적인 정확도로 점수를 측정할 수 있습니다.”고 말합니다. 즉, 정규 곡선의 속성은 합리적인 정확도로 사례 또는 스코어 확률을 추정하기 위해 사용될 수 있습니다.

모집단 추정치는 표본에서 도출되는 경우가 많습니다. 그 이유는 전체 모집단을 측정하는 것은 드물기 때문입니다. 표본이 모집단을 나타내는 경우, 정규 곡선은 유용한 추정 도구입니다.

전체 인구를 나타내는 큰 타원형의 만화 인물 및 표본을 나타내는 작은 타원형의 만화 인물

신뢰 구간

정규 곡선을 사용하여 표본 데이터에 대한 확률을 추정할 때 신뢰 구간을 사용하여 오차 한계까지 도달할 수 있습니다. 

신뢰 구간은 추론의 한 예입니다. 추론은 데이터 표본을 기반으로 모집단에 대한 결론을 도출하는 과정입니다.

신뢰 구간을 나타내는 3개의 파란색 막대를 초과하는 정규 분포

신뢰 구간은 지정된 시간의 비율에 대한 모집단 평균을 포함합니다. 예를 들어 95%의 신뢰 구간을 설정하려면 데이터에서 95%의 간격에 실제 평균이 포함되어야 합니다.

95% 신뢰 구간은 데이터의 95%가 평균으로부터 -2 및 +2 표준 편차 내에 있는 정규 분포를 사용함으로써 도출됩니다.

David M. Lane의 온라인 공개 도메인 작업인 통계의 신뢰 구간에 대한 챕터에서 각색된 예를 살펴보겠습니다.

미국에서 10세 아동의 평균 파운드에 관심이 있다고 상상해 보세요. 모든 10세 아동의 체중을 재는 것은 불가능합니다. 대신에 16명의 아이들의 표본을 재면 평균 체중이 90파운드라는 것을 알 수 있습니다. 이 표본 평균 90은 모집단 평균의 점 추정치이지만 표본의 평균이 모집단 평균으로부터 얼마나 떨어져 있는지 명확하게 알 수 없습니다. 즉, 10세 아동의 미국 전체 인구의 평균 체중이 90파운드에서 5파운드 이내라고 확신할 수 있습니까? 알 수 없습니다.

레이블이 지정된 95% 신뢰 구간을 확립하는 값이 있는 정규 분포

그러나 계산(여기서는 설명되지 않음)을 사용하여 95%의 신뢰 구간에 도달할 수 있습니다. 95% 신뢰 구간에는 72.85 - 107.15파운드 사이의 평균 체중이 포함됩니다. 

즉, 각 표본에 대해 계산된 95% 신뢰 구간으로 반복 표본을 추출한 후 95%의 시간 간격에 참 평균이 포함되므로 10세 아동의 전체 미국 모집단에 대한 평균 체중이 72.85 - 107.15파운드 사이일 것이라고 믿을 만한 충분한 이유가 있습니다. 

그러나 이는 5%의 시간 간격이 실제 평균을 포함하지 않을 것을 나타냅니다.

불확실성을 보는 실제 사례

앞서 언급한 Alberto Cairo는 허리케인 경로를 설명하는 시각화에서 불확실성이 어떻게 표현(및 오해)되었는지에 대한 실제 사례를 설명하는 여러 블로그 글을 작성했습니다. 2019 Category 5 storm, Hurricane Dorian에 대한 예측 지도를 잘못 해석하는 것에 대한 블로그 글과 Alberto Cairo's professional website의 다른 관련 주제에 액세스할 수 있습니다.

정규 곡선의 특수한 모양을 포함한 연속적인 분포에 대해 살펴봤습니다. 다음 유닛에서는 데이터 표본을 사용할 때 가설 검증의 개념에 대해 살펴보겠습니다.

리소스 

Salesforce 도움말에서 Trailhead 피드백을 공유하세요.

Trailhead에 관한 여러분의 의견에 귀 기울이겠습니다. 이제 Salesforce 도움말 사이트에서 언제든지 새로운 피드백 양식을 작성할 수 있습니다.

자세히 알아보기 의견 공유하기