什么是 p 值?
p 值量化了在假设**零假设(H₀)**为真的情况下,观察到与研究结果同样极端的结果的概率。它回答的问题是:“如果零假设为真,我的数据出现的可能性有多大?”
关键定义
- 零假设(H₀):默认假设(例如“无效应”)。
- 备择假设(H₁):被检验的假设(例如“存在效应”)。
- 检验统计量:根据样本数据计算的标准值(如 Z 分数、t 分数)。
历史背景
p 值在 20 世纪 20 年代由罗纳德·费舍尔(Ronald Fisher)推广。他提出将0.05作为统计显著性的阈值,这一惯例至今仍有争议。
公式
p 值取决于检验统计量和假设检验的类型:
通用公式
p值=⎩⎨⎧P(S≤x∣H0)P(S≥x∣H0)2×min{P(S≤x∣H0),P(S≥x∣H0)}(左尾)(右尾)(双尾)
其中,S为检验统计量,x为其观测值。
Z 检验
对于 Z 分数为Z的 Z 检验:
Z=σ/nXˉ−μ
- 左尾:Φ(Z)
- 右尾:1−Φ(Z)
- 双尾:2×Φ(−∣Z∣)
t 检验
对于 t 分数为t且自由度df=n−1的 t 检验:
t=s/nXˉ−μ
- 左尾:T_df(t)
- 右尾:1−T_df(t)
- 双尾:2×T_df(−∣t∣)
卡方(χ²)检验
对于自由度为k的 χ² 分数:
- 左尾:χ2_k(x)
- 右尾:1−χ2_k(x)
F 检验
对于自由度为(d1,d2)的 F 分数:
- 左尾:F_d1,d2(x)
- 右尾:1−F_d1,d2(x)
示例
示例 1:总体均值的 Z 检验
场景:某工厂声称灯泡寿命为 1200 小时。50 个灯泡的样本均值为Xˉ=1180,标准差σ=100。检验均值是否低于声称值。
解答:
Z=100/501180−1200≈−1.414
- 左尾 p 值:Φ(−1.414)≈0.078。
结论:在α=0.05水平下无法拒绝 H₀。
示例 2:卡方独立性检验
场景:一项调查检验性别(男/女)与偏好(是/否)是否独立。观测到 χ² = 6.25,自由度df=1。
解答:
- 右尾 p 值:1−χ2_1(6.25)≈0.012。
结论:在α=0.05水平下拒绝 H₀。
解读指南
- p 值 < 0.01:有强证据反对 H₀。
- 0.01 ≤ p 值 < 0.05:有中等证据反对 H₀。
- p 值 ≥ 0.05:证据不足以拒绝 H₀。
常见误解
- 误解:高 p 值“证明”H₀ 为真。
事实:仅表明反对 H₀ 的证据不足。
- 误解:p 值 = H₀ 为真的概率。
事实:p 值基于 H₀ 为真的假设,并不衡量 H₀ 本身的可能性。
常见问题
p 值可以为负数吗?
不能。p 值表示概率,取值范围为 0 到 1。
如何解释 p 值为 0.07?
在α=0.05水平下无法拒绝 H₀。但该结果接近显著性边界,需进一步研究。
为什么 0.05 是常用的显著性水平?
费舍尔推广的 0.05 平衡了 I 类错误(假阳性)和检验敏感性。但该值是人为设定的,不同领域可能不同(如物理学使用5σ,对应p≈3×10−7)。
样本量如何影响 p 值?
样本量越大,检验敏感性越高,越容易检测到微小效应。报告 p 值时应同时说明效应量(如 Cohen’s d)。
单尾检验和双尾检验有何区别?
- 单尾:检验单一方向的效应(如“大于”)。
- 双尾:检验任意方向的效应。使用双倍尾部概率。