做出推断
学习目标
完成本单元后,您将能够:
- 描述假设检验的目的。
- 定义 p 值在假设检验中的作用和局限性。
简介
在上一个单元,您遇到了一些围绕利用偏差和正态分布来探索、阐释和传播数据的概念。您还看了置信区间,作为推断的例子。
在本单元,您将继续学习推断。推断是指根据数据样本得出关于人口的结论的过程。它之所以有用,是因为在大多数情况下,要想获得给定人口的所有测量数据是不切实际的。
换句话说,如果我们拥有人口中所有成员的数据,那我们就不需要对那个人口中群体之间的差异做出任何推断。在不可能收集人口中每一个体的数据的情况下,我们采集样本数据,然后作出推断。
Data Literacy, LLC 的创始人、CEO,也是 Tableau Community 的成员 Ben Jones 在他的著作《避免数据陷阱》中指出,由于尝试数出“整个国家每个住宅小区中的每个人成本很高且十分复杂并且这项任务并非没有偏向和误差来源”,因此美国的人口普查每十年才开展一次。由于大多数组织不具备美国联邦政府的人力或财力,因此他们的决策依据是通过观察数据样本作出推断。
假设检验
有许多类型组织采用假设检验。比如,有些企业将假设检验用于质量控制看看某个产品是否合格,或者比较新旧销售方法。
医学研究也经常以数据样本为基础进行推断。假设有一家生物科技公司制造一种可以缓解某种疾病的新药。为了确定该药物是否有疗效,需要做对照实验。由于不可能对患有这种疾病的每个人进行实验,所以对患该疾病的人群的一个子集开展随机抽样检验。
在这个样本中,实验组接受治疗,对照组服用的是安慰剂而不是这种药物。随机分组,这样健康结果上的任何差异都可以归因于研究干预。
对两个组做好检验准备并测量数据。检验两个组的差异时,研究人员判断结果必须相差多大,才能确定实验组和对照组的健康结果是否有显著差异。
研究人员从样本组中采集数据并且进行适当的统计学检验。然后,研究人员根据这些检验结果判断小组中是否有显著差异。获得数据后,研究人员就需要对整个人口作出推断,即患这种疾病的每个人。这叫做假设检验。
假设检验的第一步是建立零假设和备择假设声明。
- 零假设声明该药物对健康结果不会有任何影响。它假定接受治疗的人与没有接受治疗的人结果不会有差异。
- 备择假设声明健康结果会有差异。它假定接受药物治疗的人将比没有接受治疗的人显示有更大改善的健康结果。
假设检验首先假定零假设为真。然后检验的目的是判断假定零假设为真时,有多大的可能性将观察到至少跟实验中一样好的结果。
换句话说,如果零假设为真时,结果一样好的概率很小,那么有证据支持备择假设。如果零假设为真时,结果一样好的概率很大,那么没有足够的证据支持备择假设,研究人员应该再次尝试新的配方。
假设检验把样本数量、测量到的差异大小以及在每个组中观察到的偏差幅度考虑在内。
假设检验的数字结果(零假设是正确的概率)叫做 p 值。p 值帮助确定是否应该抛弃零假设。在这个例子中,抛弃零假设意味着治疗将对更广泛的人群有效。p 值小表示有足够的证据抛弃零假设,支持备择假设。
不过,需要注意的是 p 值不能证实或驳斥任何东西。p 值高不能证明零假设有效,p 值低也不能证明它无效。正因为如此,需要谨慎考虑 p 值。
如何使用 p 值
研究人员曾一度训练成以 0.05 的 p 值作为临界值。也就是说 0.05 或更低的 p 值被认为足以抛弃零假设。0.05 的临界值对应正态分布的尾部。记住,95% 的置信区间匹配正态分布落在平均数 -2 或 +2 标准偏差范围内的面积。0.05(或 5%)的临界值对应落在平均数 -2 或 +2 标准偏差范围以外的面积。
那种思想在过去几年得到了修正。在药物实验中,如果使用了更低的临界值(有效地把置信区间提高到 95% 以上),那样会更难以抛弃零假设。
由于这些原因以及许多其他原因,美国统计协会在 2016 年发布了一份声明,声称,“p 值本身不能提供关于某个模型或假设很好的衡量标准。”
p 值也可能被纳入分析的数据所操纵。
要想看 p 值如何被操纵的例子,请见 FiveThirtyEight 上的互动“p 黑客”练习 Hack Your Way to Scientific Glory(《窃取您通往科学荣耀的道路》),这是一个分析意见投票、政治、经济和体育的投票调查网站。
已经向您介绍了推断、假设检验和 p 值。理解这些概念可以帮助您测量、描述、总结、比较数据并且从中得出有意义的结论。
资源
- 文章:ASA 关于 P 值的声明:背景、程序和目的。The American Statistician《美国统计学家》,2016
- 书籍:Cairo, Alberto。The Truthful Art: Data, Charts, and Maps for Communication(《真实的艺术:用于传播的数据、图表和地图》)。印第安纳波利斯,IN: New Riders, 2016
- 博客:《纽约时报》、NPR 和 BBC 的可视化说明。”The Functional Art(《实用艺术》)(博客),2019。博客链接。访问 Alberto Cairo 的专业网站
- 文章:Those Hurricane Maps Don’t Mean What You Think They Mean(《那些飓风地图不表示您认为它们代表的含义》)《纽约时报》,2019。文章链接
- 文章:Hack Your Way to Scientific Glory(《窃取您通往科学荣耀的道路》)FiveThirtyEight.ABC News Internet Ventures
- 书籍:Jones, Ben。Avoiding Data Pitfalls: How to Steer Clear of Common Blunders When Working with Data and Presenting Analysis and Visualizations.(《避免数据陷阱:使用数据,提出分析和可视化时,如何避免常见的错误》)。Hoboken, NJ: John Wiley & Sons, 2019
- 网站:数据素养,Ben Jones
- 书籍:Lane, David M.《统计学入门》在线统计学教育:交互式多媒体学习课程,2020