统计检验

本章中我们主要介绍统计学中的各种假设检验。

基本概念

统计学中用于假设检验的中心概念就是假设,其中包括零假设和备择假设。

假设(Hypothesis)是一个关于总体的命题。

在假设检验中,一般存在两个假设:零假设(Null hypothesis),记为$H_0$,和备择假设(Alternative hypothesis),记为$H_1$。 零假设的内容是希望能证明为错误的假设,与零假设相对的备择假设,则是希望证明正确的另一种假设。

如果一组假设完全确定了总体的分布,则称为简单假设(Simple hypothesis);反之,若并未完全指定分布,则称为复合假设(Composite hypothesis)。

如果统计检验说明假设可能成立,则称接受了这个假设,反之,则称拒绝了这个假设。

为了检验假设是否成立,我们使用错误来定量地分析这些假设。

若零假设为真,而统计检验拒绝了零假设,则称发生了第一类错误或弃真错误。 第一类错误的发生概率常记为$\alpha$,常作为确定拒绝域的根据,称为显著性水平。 若备择假设为真,而统计检验接受了零假设,则称发生了第二类错误或存伪错误。 第二类错误发生概率常记为$\beta$,而$1-\beta$称为该检验的功效或效力(Power)。

参数检验

参数检验是指假设中含有总体的一个参数的检验。 这种检验中,我们通常使用一个统计量来作为检验的判据,该统计量常记为$D$,称为决策变量。

为了使用统计量$D$来验证假设,我们使用拒绝域这一概念。

统计量$D$的值中,能够拒绝零假设的取值的集合称为拒绝域(Region of rejection),记为$W$;拒绝域的补集称为接受域。 通常该集合是一个延伸至无穷的区间,此时区间的非无穷端点称为临界值(Critical value)。

利用拒绝域的概念,我们可以将$\alpha$和$\beta$改写: \(\alpha = P (D \in W | H_0), \quad \beta = P(D \not \in W | H_1)\)

为了执行参数检验,我们通常采用以下步骤:

  1. 确定零假设$H_0$、备择假设$H_1$、决策变量$D$和显著性水平$\alpha$。
    • $\alpha$通常选择几个确定的值,如$5\%$、$1\%$等。
    • 和进行估计时相同,我们需要用到决策变量的累积分布,因此其最好服从一个比较简单的分布。
  2. 利用显著性水平确定拒绝域$W$。
  3. 根据样本取值计算决策变量$D$,根据其是否在拒绝域中选择拒绝或接受零假设。
  4. 计算假设的功效,给出结论。

我们先介绍确定决策变量的通用方法,然后介绍几个在正态分布中常见的决策变量。

Neyman-Pearson准则

(Neyman-Pearson)设对于服从带参数$\theta$的分布的总体$X$,我们有简单的零假设和备择假设 \(H_0:\ \theta = \theta_0 , \quad H_1:\ \theta = \theta_1\) 则其最有力检验的决策变量由似然比给出: \(D = \frac{L(\theta_1 | x)}{L(\theta_0 | x)} > k\) 其中$k$为临界值,若$D > k$,则应当拒绝零假设。 此时其效力$1 - \beta > \alpha$且随样本数增大而收敛于1。

似然函数通常非常复杂,因此我们往往不直接使用这个决策变量,而是使用一个充分条件。

设总体服从分布 \(F(x) = 1 - e^{- \frac{x}{a}} \iff f(x) = \frac{1}{a} e^{- \frac{x}{a}}\) 零假设和备择假设为: \(H_0:\ a = a_0, \quad H_1:\ a = a_1 > a_0\) 试确定其一个决策变量及其拒绝域。
考虑似然比: \(D^* = \frac{L(a_1 | x)}{L(a_0 | x)} = \frac{\frac{1}{a_1^n} \exp \left[ - \frac{\sum x_i}{a_1} \right]}{\frac{1}{a_0^n} \exp \left[ - \frac{\sum x_i}{a_0} \right]} = \frac{a_0^n}{a_1^n} \exp \left[ (\frac{1}{a_0} - \frac{1}{a_1}) (\sum x_i) \right]\) 似然比$D^*$大于临界值$k^*$的一个充分条件是: \(D = \sum x_i > k\) 因此,我们可以选择$\sum x_i$作为决策变量。 注意到$X \sim \exp (a)$,因此$D$服从伽马分布,$2D / a$服从卡方分布,可根据$\alpha$查表求出临界值$k$。

正态分布的均值检验

已知方差的检验

我们分布考虑简单和双边的检验。

首先考虑单边检验,此时零假设和备择假设为: \(H_0:\ m = m_0 \quad H_1:\ m = m_1 > m_0\)

为了检验均值,我们选择使用样本均值作为决策变量: \(\def\avgX{\overline{X}} D = \avgX \sim N(m, \frac{\sigma^2}{n})\)

我们希望拒绝域能够区分零假设和备择假设,由于备择假设中假设的均值比零假设大,因此我们应当在样本均值过大时拒绝零假设,拒绝域可以写为: \(W = \{ D \ |\ D > k \}, \quad k \in \mathbb R\)

接下来考虑使用$\alpha$求出$k$,根据定义: \(\alpha = P(D \in W \ |\ H_0) = P(D > k \ |\ H_0)\) $k$可利用$D$的累积分布函数求出,由于$D$服从正态分布,我们可以将其转化为标准正态分布: \(P(D > k\ |\ H_0) = P(\frac{D - m_0}{\sigma / \sqrt{n}} > \frac{k - m_0}{\sigma / \sqrt{n}}) = \alpha\) 我们可通过查找标准正态分布的累积分布函数表来解出不等号右边式子的值,记为$U$,从而: \(\frac{k - m_0}{\sigma / \sqrt{n}} = U \iff k = U \frac{\sigma}{\sqrt{n}} + m_0\) 从而给出其拒绝域。


对双边的复合假设检验: \(H_0:\ m = m_0 \quad H_1:\ m \neq m_0\) 我们使用稍加修改的决策变量: \(D' = \avgX - m \sim N(0, \frac{\sigma^2}{n})\) 从而用于求解拒绝域的不等式变为: \(P(\left|\frac{\avgX - m}{\sigma / \sqrt{n}}\right| > \frac{k}{\sigma / \sqrt{n}}) = \alpha\)

未知方差的检验

我们可以使用样本方差$S^2$和标准差$S$来近似总体的方差和标准差,此时决策变量的分布会发生变化。

首先考虑单边检验,此时零假设和备择假设为: \(H_0:\ m = m_0 \quad H_1:\ m = m_1 > m_0\) 决策变量为: \(D = \frac{\avgX - m}{S / \sqrt{n-1}} \sim t (n-1)\) 在$H_0$的条件下,决策变量越大说明备择假设越有可能为真,因此其拒绝域可由以下关系求出: \(P(D > k \ |\ H_0) = P(\frac{\avgX - m_0}{S / \sqrt{n-1}} > k) = \alpha\)

若$m_1 < m_0$,则其拒绝域变为: \(P(D < k \ |\ H_0) = P(\frac{\avgX - m_0}{S / \sqrt{n-1}} < k) = \alpha\)

对双边检验,我们同样为其加上绝对值即可: \(P(D' < k \ |\ H_0) = P(\left|\frac{\avgX - m_0}{S / \sqrt{n-1}}\right| < k) = \alpha\)

正态分布的方差检验

已知均值的检验

若均值已知,则可使用决策变量: \(D = \frac{1}{n} \sum_{i=1}^n (x_i - m)^2, \quad \frac{n}{\sigma^2} D \sim \chi^2 (n)\)

首先考虑简单假设 \(H_0:\ \sigma^2 = \sigma_0^2 \quad H_1:\ \sigma^2 = \sigma_1^2 > \sigma_0^2\)

根据决策变量的定义和假设,$D$越大越能拒绝零假设。 $D$的分布未知,但是可转化为卡方分布,从而可计算其拒绝域: \(P(D > k \ |\ H_0) = P(\frac{n}{\sigma_0^2} D > \frac{n}{\sigma_0^2} k) = \alpha\) 查阅卡方分布的累积分布函数表,可得 \(\frac{n}{\sigma_0^2} k = \chi^2_\alpha \iff k = \frac{\sigma_0^2}{n} \chi^2_\alpha\) 其中 \(P(X > \chi^2_\alpha) = \alpha, \quad X \sim \chi^2(n)\) 从而得到拒绝域。

若$\sigma_1^2 < \sigma_0^2$,则求解拒绝域的不等式变为: \(P(D < k \ |\ H_0) = P(\frac{n}{\sigma_0^2} D < \frac{n}{\sigma_0^2} k) = \alpha\) 最后可得: \(k = \frac{\sigma_0^2}{n} \chi^2_{1 - \alpha}\)

对于双边检验 \(H_0:\ \sigma^2 = \sigma_0^2 \quad H_1:\ \sigma^2 \neq \sigma_0^2\) 由于卡方分布不对称,我们采用和确定置信区间一样的方法计算其接受域而非拒绝域 \(\begin{multline} 1 - \alpha = P (a < D < b) = P(D < b) - P(D < a) \\ \implies P(D < a) = \frac{\alpha}{2}, P(D < b) = 1 - \frac{\alpha}{2} \end{multline}\) 从而确定区间的两个端点$a,b$。

未知均值的检验

若均值未知,则只能使用样本方差来估计方差,此时选择的估计量为: \(D = S^2, \quad \frac{n}{\sigma^2} D \sim \chi^2 (n-1)\) 其余推导与已知方差的完全相同。

二项分布的比例检验

二项分布的比例检验比较简单,我们只考虑复合假设: \(H_0:\ p = p_0; \quad H_1:\ p \neq p_0\) 使用的统计量为频率$F$: \(F \to N (p, \frac{p(1-p)}{n})\)

然后计算拒绝域: \(\alpha = P(|F - p| > k\ |\ H_0) = P(\left| \frac{F - p_0}{\sqrt{p_0(1-p_0) / n}} \right| > \frac{k}{\sqrt{p_0(1-p_0) / n}})\)

注意到 \(\frac{F - p_0}{\sqrt{p_0(1-p_0) / n}} \sim N(0,1)\) 且是中心化的对称随机变量,利用它来求解$k$是非常容易的。

分布检验

分布检验就是检查样本的分布是否符合假设的检验。 对离散的分布,我们主要介绍卡方检验;对连续的分布,我们介绍柯尔莫哥洛夫检验。

卡方检验

对于离散的分布检验,我们使用如下的零假设和备择假设 \(\begin{aligned} H_0:\quad &\forall 1 \le i \le k,\ P(X = x_i) = p_i \\ H_1:\quad &\exists 1 \le i \le k,\ P(X = x_i) \neq p_i \end{aligned}\)

我们使用的统计量为 \(D^2 = \sum_{i=1}^k \frac{(n_i - n p_i)^2}{n p_i} \sim \chi^2(k-r-1)\) 其中$n$是总样本数,$n_i$是取值等于$x_i$的样本数量,$r$是欲检验的分布的自由度,通常是待确定的参数的个数。 以正态分布为例,若需要检验的分布的均值和方差都是估计出来的,则$r = 2$。

通常卡方检验按以下步骤进行

  1. 根据样本确定待验证的分布,计算假设概率;
  2. 将样本分为若干组,保证每一组满足$n p_i \ge 5$;
  3. 寻找$\chi^2$分布表,根据显著性水平确定拒绝域;
  4. 计算$D^2$,得出结论。

柯尔莫哥洛夫检验

对于连续的分布检验,我们使用如下统计量 \(D_0 = \sup_{x \in (x_1, \dots, x_n)} | F_n^*(x) - F(x) |\) 其中$x$是样本的值,$F$是待检验分布的累积分布函数,$F_n^*$是任意一个在分布最小值取值为零,最大值处取值为一的递增函数,通常选择 \(F_n^*(x) = \frac{\text{小于等于}x\text{的样本个数}}{\text{总样本个数}}\) 若样本取值两两不同,则等价的定义为 \(F_n^* (x) = \begin{cases} 0, & x < x_1 \\ \frac{k}{n}, & x_k \le x < x_{k+1} \\ 1, & x_{n} \le x \end{cases}\) 其中$x_1, \dots, x_n$是一系列任意选择的递增实数。

通常柯氏检验按以下步骤进行

  1. 根据样本确定待验证的分布,计算累积分布函数;
  2. 将样本按从小到大排序,计算$F_n^*$;
  3. 计算$D_0$,查表求出拒绝域,给出结论。

比较检验

比较检验是验证两组或多组样本分布是否一致的检验,其零假设和备择假设通常写为 \(\begin{aligned} H_0:\quad & F_1(x) = F_2(x) \\ H_1:\quad & F_1(x) \neq F_2(x) \end{aligned}\) 若拒绝零假设而接受了备择假设,则称两个分布之间存在显著性差异。

按样本组数可分为多样本比较和双样本比较。

卡方检验

卡方检验可以用来判定几组分布是否相同。 卡方检验借助列联表(Contingency table)完成,假设样本分为$E_1, \dots, E_k$组,且可分为$M_1, \dots, M_n$类,则列联表为。 \(\begin{array}{c|cccc|c} & M_1 & M_2 & \cdots & M_r & \\ \hline E_1 & n_{11} & n_{12} & \cdots & n_{1r} & n_{1\cdot} \\ \vdots & \vdots & \vdots & \ddots & \vdots & \vdots \\ E_k & n_{k1} & n_{k2} & \cdots & n_{kr} & n_{k\cdot} \\ \hline & n_{\cdot 1} & n_{\cdot 2} & \cdots & n_{\cdot r} & N \end{array}\) 其中标有$\cdot$下标的表示对该行或该列求和。 $N$是所有组的总样本数。

则需计算的统计变量是 \(D_0^2 = \sum_{i=1}^k \sum_{j=1}^r \frac{(n_{ij} - n_{i \cdot} p_j)^2}{n_{i\cdot} p_j}\) 其中$p_j$是取得该分类的概率,通常由以下式子估计 \(p_j = \frac{n_{\cdot j}}{N}\) 从而该估计量可被化简为 \(\begin{aligned} D_0^2 &= \sum_{i=1}^k \sum_{j=1}^r \frac{(n_{ij} - n_{i \cdot} p_j)^2}{n_{i\cdot} p_j} \\ &= \sum_{i=1}^k \sum_{j=1}^r \frac{(n_{ij} - \frac{n_{i \cdot} n_{\cdot j}}{N})^2}{\frac{n_{i\cdot} n_{\cdot j}}{N}} \\ &= N \left( \sum_{i=1}^k \sum_{j=1}^r \frac{n_{ij}^2}{n_{i\cdot} n_{\cdot j}} - 1\right) \end{aligned}\)

在计算该分布时,我们估计了$r$个变量,但这$r$个变量具有一个约束(其总和为一),因此总的自由度为$r-1$,从而该统计量满足分布 \(D_0^2 \sim \chi^2(k(r-1) - (r-1)) = \chi^2 ((k-1)(r-1))\)

对于只有两组样本且只能分为两类的情况,我们记列联表为 \(\begin{array}{c|cc|c} & M_1 & M_2 & \\ \hline E_1 & a & b & a+b \\ E_2 & c & d & c+d \\ \hline & a+c & b+d & N \end{array}\) 统计量简化为 \(D_0^2 = \frac{N(ad - bc)^2}{(a+b)(a+c)(b+d)(c+d)} \sim \chi^2(1)\)

特别地,若对于两组样本各分类的分布相同,则该分布是关于样本的选择独立的。 这就是高中学习过的独立性检验的原理。

正态分布比较

我们主要关注正态分布的两个比较:方差和均值的比较。

在比较方差时,我们使用统计量和拒绝域 \(D = \frac{S_1^2}{S_2^2} > k_0\) 注意到 \(\frac{n S^2}{\sigma^2} \sim \chi^2(n-1) \implies \frac{\frac{n_1 S_1^2}{n_1-1}}{\frac{n_2 S_2^2}{n_2-1}} \sim F(n_1-1, n_2-1)\) 从而$k_0$的值可以通过费舍尔分布的表求出。

若在未知方差的情况下比较均值,我们使用估计量 \(D = \frac{(\overline{x_1} - \overline{x_2}) - (m_1 - m_2)}{\sqrt{(n_1 S_1^2 + n_2 S_2^2)(\frac{1}{n_1} + \frac{1}{n_2})}} \sqrt{n_1 + n_2 - 2} \sim t(n_1 + n_2 - 2)\) 这个随机变量服从学生t-分布。

比例比较

对于二项分布的比例,我们可以先利用中心极限定理将其转化为正态分布,从而其样本频率满足分布 \(F_1 \sim N(p, \frac{p(1-p)}{n_1}), F_2 \sim N(p, \frac{p(1-p)}{n_2})\)

我们使用统计变量 \(D = \frac{|f_1 - f_2|}{\sqrt{p(1-p) \sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}} \sim N(0,1)\) 进行判定。

更新时间: