추론하기
학습 목표
이 유닛을 완료하면 다음을 수행할 수 있습니다.
- 가설 검증의 목적을 설명할 수 있습니다.
- 가설 검증에서 p 값의 사용과 한계를 정의할 수 있습니다.
개요
이전 유닛에서는 데이터를 탐색, 해석 및 소통하기 위해 변수 및 정규 분포를 사용하는 개념을 살펴봤습니다. 또한 추론의 예로 신뢰 구간을 살펴보았습니다.
이 유닛에서는 추론에 대해 계속 알아봅니다. 추론은 데이터 표본을 기반으로 모집단에 대한 결론을 도출하는 과정입니다. 대부분의 경우 특정 모집단에서 모든 측정값을 얻는 것은 실용적이지 않기 때문에 유용합니다.
즉, 모집단의 모든 구성원에 대한 데이터가 있다면 해당 모집단 내의 집단 간의 차이에 대해 추론할 필요가 없습니다. 모집단의 모든 개인 구성원에 대한 데이터를 수집할 수 없는 경우 표본에서 데이터를 수집한 다음 추론합니다.
Data Literacy, LLC의 창립자이자 CEO이며 Tableau Community의 일원인 Ben Jones는 그의 저서 'Avoiding Data Pitfalls’에서 미국의 인구 조사는 "전체 국가의 모든 주거 구조에 있는 모든 개인을 세보는 것이 얼마나 비용이 많이 들고 복잡한지”를 헤아리는 것이 편견과 오류의 근원 없이 이루어지지 않으므로 10년에 한 번만 실시된다고 지적합니다. 대부분의 조직은 미국 연방 정부와 동등한 재정적 또는 인적 자원을 가지고 있지 않기 때문에 데이터 표본을 보고 내린 추론을 기반으로 결정을 내립니다.
가설 검증
많은 유형의 조직이 가설 검증을 사용합니다. 예를 들어, 일부 기업은 품질 관리를 위해 가설 검증을 사용하여 특정 제품이 표준을 충족하는지 확인하거나 새로운 판매 방법과 이전 판매 방법을 비교합니다.
의학 연구는 종종 데이터 표본에 대한 추론을 기반으로 합니다. 생명공학회사가 질병 증세를 완화하는 신약을 제조한다고 상상해 보세요. 약물이 효과가 있는지 확인하려면 통제된 실험을 수행해야 합니다. 질병을 가진 모든 사람을 대상으로 실험하는 것은 불가능하기 때문에, 질병을 가진 사람들의 하위 집합은 검사를 위해 무작위로 표본을 추출합니다.
이 표본 내에서, 실험 그룹은 치료를 받고, 대조군 그룹은 약물 대신에 위약을 받습니다. 건강 결과의 차이가 연구 개입에 기인할 수 있도록 그룹은 무작위로 할당됩니다.
테스트는 두 그룹에 대해 설정되고 측정이 수행됩니다. 두 집단 간의 차이를 검사할 때, 연구자들은 실험군과 대조군에 대한 건강 결과가 유의하게 다른지 판단하기 위해 결과가 얼마나 떨어져 있어야 하는지를 결정합니다.
연구자들은 표본 그룹으로부터 데이터를 수집하고 적절한 통계적 검증을 수행합니다. 그런 다음, 연구자들은 이 검증 결과를 사용하여 두 그룹 사이에 유의미한 차이가 있는지 판단합니다. 일단 데이터가 확보되면 연구자들은 질병이 있는 모든 개인을 의미하는 모집단에 대해 추론할 필요가 있습니다. 이를 가설 검증이라고 합니다.
가설 검증은 귀무 가설과 대립 가설 문을 만드는 것으로 시작됩니다.
- 귀무 가설은 약물이 건강 결과에 영향을 미치지 않을 것이라고 명시합니다. 치료를 받는 사람과 받지 않는 사람이 다른 결과를 가지지 않을 것을 가정합니다.
- 대립 가설은 건강 결과에 차이가 있을 것이라고 말합니다. 이 약을 투여한 사람들이 투여하지 않은 사람들보다 더 나은 건강 결과를 보일 것이라고 가정합니다.
가설 검증은 귀무 가설이 참이라고 가정하는 것으로 시작됩니다. 그런 다음 이 검정은 귀무(null)가 참이라고 가정할 때 최소한 실험에서와 같이 결과가 클 확률을 식별하는 것을 목표로 합니다.
즉, 귀무 가설이 참인 경우 결과가 그렇게 클 확률이 작다면, 대립 가설을 뒷받침하는 증거가 있습니다. 귀무가 참인 경우 해당 결과가 그만큼 클 확률이 크다면, 대립 가설을 뒷받침할 증거가 충분하지 않고, 연구자들은 새로운 공식을 가지고 다시 시도해야 합니다.
가설 검증은 표본의 수, 측정된 차이의 크기 및 각 그룹에서 관찰된 변수의 양을 고려합니다.
가설 검증의 수치적 결과(귀무 가설이 참일 확률)를 p 값이라고 합니다. P 값은 귀무 가설을 기각할지 여부를 결정하는 데 도움이 됩니다. 이 경우 귀무 가설을 기각하는 것은 치료가 더 큰 모집단에서 효과가 있다는 것을 의미합니다. 작은 p 값은 귀무 가설을 기각하고 대립 가설을 뒷받침할 충분한 증거가 있음을 나타냅니다.
그러나 p값은 어떤 것도 증명하거나 반증할 수 없습니다. 높은 p 값은 귀무 가설이 유효하다는 것을 증명하지 않으며 낮은 p 값은 귀무 가설이 유효하지 않다는 것을 증명하지 않습니다. 그렇기 때문에 p 값은 신중하게 고려해야 합니다.
P값 사용 방법
한 때, 연구자들은 p 값 0.05를 컷오프로 사용하도록 훈련받았습니다. 즉, 0.05 이하의 p 값은 귀무 가설을 기각하기에 충분한 것으로 간주됩니다. 0.05 컷오프는 정규 분포의 꼬리에 상응합니다. 95% 신뢰 구간은 평균에서 -2 또는 +2 표준 편차 이내인 정규 분포의 면적과 일치한다는 것을 기억하세요. 0.05(또는 5%) 컷오프는 평균으로부터 -2 또는 +2 표준 편차의 외부 영역에 해당합니다.
이 생각은 지난 몇 년 동안 수정되었습니다. 약물 실험에서 낮은 컷오프를 사용하면(신뢰 구간을 95% 이상으로 효과적으로 높임) 귀무 가설을 기각하기 더 어려울 수 있습니다.
이러한 이유와 많은 다른 이유로 인해, 미국 통계 협회는 2016년에 "그 자체로는 p 값이 모형이나 가설에 대한 좋은 척도를 제공하지 못한다"고 주장하는 성명을 발표했습니다.
P 값은 분석에 가져온 데이터의 종류에 의해 조작될 수도 있습니다.
P 값이 어떻게 조작될 수 있는지에 대한 예시를 보려면 여론 조사, 정치, 경제 및 스포츠도 분석하는 여론조사 집계 웹사이트인 FiveThreeEight의 상호작용적인 "p 해킹" 연습인 Hack Your Way to Scientific Glory를 살펴보세요.
이제 추론, 가설 검증 및 p 값을 소개했습니다. 이러한 개념을 이해하면 측정, 설명, 요약, 비교 및 데이터에서 정보에 입각한 결론을 도출하는 데 도움이 될 수 있습니다.
리소스
- 기사: The ASA Statement on P-Values: Context, Process, And Purpose. American Statistician, 2016
- 저서: Cairo, Alberto. The Truthful Art: Data, Charts, and Maps for Communication. Indianapolis, IN: New Riders, 2016
- 블로그: Explaining visualizations in The New York Times, NPR, and the BBC.” The Functional Art(blog), 2019. 블로그 링크 Alberto Cairo의 전문 웹사이트에 접속하세요
- 기사: Those Hurricane Maps Don’t Mean What You Think They Mean. The New York Times, 2019. 기사 링크
- 기사: Hack Your Way to Scientific Glory. FiveThirtyEight. ABC News Internet Ventures
- 저서: Jones, Ben. Avoiding Data Pitfalls: How to Steer Clear of Common Blunders When Working with Data and Presenting Analysis and Visualizations. Hoboken, NJ: John Wiley & Sons, 2019
- 웹사이트: Data Literacy by Ben Jones
- 저서: Lane, David M. Introduction to Statistics Online Statistics Education: An Interactive Multimedia Course of Study, 2020