更一般的概率测度
本章中我们将继续进行概率论的学习,但是不再研究有限的情况,而是向前一步,考虑离散(可数)的情况。
在此处,我们规定“可数”与“可列”是完全相同的,除非特殊指明,否则仅包括可与$\mathbb{N}$建立双射的集合,而不包括有限的集合。
概率空间
设$\Omega$为一任意非空集合,集合$\mathcal A$为$\mathcal P(\Omega)$(幂集)的子集,若其满足以下三条公理,则称其为$\Omega$上的σ-代数: \(\begin{array}{lc} & \Omega \in \mathcal A \\ \forall A \in \mathcal A & A^C \in A \\ \forall A_1, A_2, \dots \in \mathcal A & \bigcup_{n \in \mathbb N} A_n \in \mathcal A \end{array}\)
这里我们不再要求其两两子集的并集对集合封闭,转而要求任意可数个子集的并集对集合封闭。
我们知道,一个集合的子集的集合只要包含全集,关于有限个并、交封闭,对补集封闭,就可以构成一个代数,这种代数称为集合域。 一个集合域不一定是一个σ-代数,但是一个σ-代数一定是一个集合域。 相对地,如果$\Omega$有限,那么所有集合域自然都是σ-代数。
一个集合$\Omega$和其上的一个σ-代数$\mathcal A$合称一个可测空间,这个σ-代数定义了一个可以被测度的$\Omega$的子集。 $\mathcal A$的一个元素称为事件。
上极限与下极限
我们根据集合的包含这一偏序关系定义一列集合$(A_n)$的下极限和上极限: \(\begin{aligned} \liminf_{n \to \infty} A_n &= \bigcup_{n=0}^\infty \bigcap_{m=n}^\infty A_m \\ \limsup_{n \to \infty} A_n &= \bigcap_{n=0}^\infty \bigcup_{m=n}^\infty A_m \end{aligned}\)
一列集合的下极限中包含所有出现了无限次且仅消失有限次的元素;而上极限中包含了所有出现了无限次的元素,无论其是否在无限个集合中消失。
回忆数列中定义的下极限和上极限,在数列中,下极限是极限点的下确界,也就是数列趋于无穷而忽略有限个点时,使数列的所有值大于等于它的最大实数。 我们用集合的“包含”这一偏序关系替代实数的“大于等于”,就能得到集合的下极限的定义,即忽略掉消失有限次的元素后,所有集合都包含它的最大集合。
在实数中,我们知道上极限大于等于下极限,从而集合的上极限一定包含下极限。
设$\mathcal C$为$\mathcal{P}(\Omega)$的一个集合,那么存在最小(在包含这一含义下)的σ-代数,使其包含$\mathcal C$。 这样的σ-代数记为$\sigma(\mathcal C)$。
注意到若$(A_i)$是一个σ-代数,那么$(\cap A_i)$也是一个σ-代数,因此所有包括$\mathcal C$的σ-代数的交就是$\sigma(\mathcal C)$。
类似极限的定义,如果一列集合的上极限和下极限相等,那么称其收敛至这个极限,记为$\lim_{n \to \infty} A_n$。
离散随机变量
设$(\Omega, \mathcal A)$为一可测空间,$E$为一集合,那么称映射$X: \Omega \to E$为$E$上的离散随机变量,若: \(\begin{aligned} \forall B \in \mathcal P(E), \quad &X^{-1}(B) \in \mathcal A \\ &X(\Omega) \text{至多可数} \end{aligned}\) 若映射$X$满足上一条件,则称$X$是$\mathcal A$-可测的。
根据定义,有限的随机变量是离散的。
随机变量$X$是离散的,当且仅当$X(\Omega)$至多可数,且: \(\forall x \in E, \quad X^{-1}(\{x\}) = \{ X = x \} \in \mathcal A\)
σ-代数的原子
设$\mathcal D = \{ A_i \in \mathcal P(\Omega), i \in I \}$为$\Omega$的一个至多可数的分划,那么$\sigma(\mathcal D)$是所有形如$\cup_{i \in J} A_i, J \subset I$的集合构成的集合。
反之,若$\Omega$至多可数,$\mathcal A$为其上一个σ-代数,那么存在唯一的分划$\mathcal D$满足$\sigma(\mathcal D) = \mathcal A$
这种分划$\mathcal D$称为这个σ-代数的原子。
设$(\Omega, \mathcal A)$为一可测空间,则:
设$X : \Omega \to E$为一离散随机变量,记
\(\mathcal D_X = \{ \{X = x\}, \; x \in X(\Omega) \}\)
那么:
\(\sigma(\mathcal D_X) = \sigma(X) = \{ X^{-1}(B), \; B \in \mathcal P (E) \}\)
这个σ-代数称为X生成的代数。
反之,设$\mathcal D$为$\Omega$的一个至多可数的分划,那么存在唯一的离散随机变量$X$,使$\sigma(X) = \sigma(\mathcal D)$
这些命题的证明和有限情况下的别无二致。
概率测度
设$(\Omega, \mathcal A)$为一可测空间,其上的一个概率测度定义为正实数映射:
\(\mathbf P : \mathcal A \to \mathbb R_+\)
满足:
1)\(\mathbf{P} (\Omega) = 1\)
2)若$(A_n)_{n \in \mathbb N}$为一组不相交的集合,那么
\(\mathbf{P}(\biguplus_{n \in \mathbb N} A_n) = \sum_{n \in \mathbb{N}} \mathbf{P}(A_n)\)
这一性质称为可数可加性或σ-可加性。
从定义上讲,这个测度实际上就是有限个集合对可数情况的推广。 然而,实际情况是,寻找到这样一个测度往往是最困难的部分。
以自然数集合$\mathbb{N}$为例,我们甚至不能在数学上定义“等概率地随机取一个自然数”。 我们设取到每一个自然数的概率为$p$,那么根据可数可加性,不难发现: \(\mathbf{P} (\mathbb{N}) = \sum_{n \in \mathbb N} p = 1\) 而常数$p$不可能存在。
尽管如此,我们仍然假设这个测度存在,并研究它的性质。
概率测度的基本性质
- \[\mathbf P (\emptyset) = 0\]
- \[\forall A, B \in \mathcal A, A \subset B \iff \mathbf P (A) \le \mathbf P(B)\]
- \[\forall A_1, \dots, A_n \in \mathcal A, \mathbf{P}(A_1 + \cdots A_n) \le \mathbf{P}(A_1) + \cdots + \mathbf{P}(A_n)\]
- \[\forall A \in \mathcal A, \mathbf{P}(A) \in [0,1]\]
这些命题的证明都比较基本,此处不再赘述。 值得注意的是,由于无穷的存在,我们最好区分有穷个集合(如第3条)和无穷个集合组成的集合列。
集合列的概率测度
设$(A_n)$为一列递增(包含的含义下)的集合列,那么: \(\lim_{n \to \infty} \mathbf{P}(A_n) = \mathbf{P}(\bigcup_{n=0}^\infty A_n)\) 反之,若其为递减的,那么: \(\lim_{n \to \infty} \mathbf{P}(A_n) = \mathbf{P}(\bigcap_{n=0}^\infty A_n)\)
这两个命题可以将极限从概率的内侧移到外侧,因此也被称为概率的单调连续性。
有: \(\cup_{n=p}^\infty A_n = A_p \cup (A_{p+1} \backslash A_p) \cup \cdots\) 从而 \(\begin{aligned} \mathbf{P}(\bigcup_{n=0}^\infty A_n) &= \mathbf{P}(\bigcup_{n=p}^\infty A_n) &\text{序列递增} \\ &= \mathbf{P} (A_p) + \sum_{n=p}^\infty \mathbf{P}(A_{n+1} \backslash A_n) \\ \end{aligned}\) 又因为$\sum \mathbf{P}(A_{n+1} \backslash A_n) = \mathbf{P} (\lim A_n)$等于常数而收敛,从而其部分和的极限等于零。 上式右侧取$p \to \infty$,可得: \(\mathbf{P}(\bigcup_{n=0}^\infty A_n) = \lim_{p \to \infty} \mathbf{P} (A_p)\) 从而原命题得证。 另一个命题取补集即可。
设$A \in \mathcal A$为一事件,称其为可忽略的,或零测的,若$\mathbf{P}(A) = 0$; 称其为几乎必然的,若$\mathbf{P}(A) = 1$。
设$A$为一列递增集合的并集,那么其几乎必然发生,当且仅当$\lim \mathbf{P} (A_n) = 1$,即最大的集合几乎必然发生; 若其为一列递减集合的交集,那么其为零测,当且仅当$\lim \mathbf{P} (A_n) = 0$,即最小的集合零测。
这个命题很容易由上个命题推得。
设$(A_n)$为一列事件,那么 \(\mathbf{P} (\bigcup_{n \in \mathbb N} A_n) \le \sum_{n \in \mathbb N} \mathbf{P}(A_n)\)
这个命题就是此前的性质的无穷形式。
设$U_n = \cup_{k=0}^n A_k$,那么这列集合是递增的,且$\cup_{n \in \mathbb N} U_n = \cup_{n \in \mathbb N} A_n$。 有: \(\mathbf{P} (\bigcup_{n \in \mathbb N} A_n) = \lim_{n \to \infty} \mathbf{P} (U_n)\) 从而有: \(\begin{aligned} \mathbf{P}(B_n) &= \mathbf{P}(\bigcup_{k=0}^n A_k) \le \sum_{k=0}^n \mathbf{P}(A_k) &\text{(有限个事件)} \\ \mathbf{P}(B_{n+1}) &= \mathbf{P}(B_n \cup B_{n+1}) \\ &= \mathbf{P}(B_n) + \mathbf{P}(A_{n+1}) - \mathbf{P}(B_n \cap A_{n+1}) \\ &\le \sum_{k=0}^{n+1} \mathbf{P}(A_k) \end{aligned}\) 然后由归纳法即可得证。
有限或可数个零测事件的并集仍是零测事件。
这个命题看上去是对性质的简单推广,实际上却使用较为复杂的技巧来用有穷的情况推知无穷的情况。 在数学上,一切涉及无穷的概念都必须得到严格的讨论,因为其结果往往是反直觉的。
条件概率
只要明确了可数情况下条件概率的定义,其性质实际上和有限情况下相差无几。
设$B \in \mathcal A$为一非零测事件,映射: \(\begin{array}{cccc} \mathbf{P}_B: & \mathcal A & \to & \mathbb R_+ \\ & A & \mapsto & \frac{\mathbf{P}(A \cap B)}{\mathbf{P}(B)} \end{array}\) 构成$\Omega$上的一个概率测度,称为条件概率测度。 记: \(\mathbf{P} (A|B) = \mathbf{P}_B (A) = \frac{\mathbf{P}(A \cap B)}{\mathbf{P}(B)}\) 称为B发生条件下A的概率。
设$(A_n)$为一列不相容事件,那么$(A_n \cap B)$也是不相容的,从而: \(\begin{aligned} \mathbf{P}_B(\biguplus_{n \in \mathbb N} A_n) \times \mathbf{P}(B) &= \mathbf{P} ( \left( \biguplus_{n \in \mathbb N} A_n \right) \cap B ) \\ &= \mathbf{P} \left( \biguplus_{n \in \mathbb N} (A_n \cap B) \right) \\ &= \sum_{n \in \mathbb N} \mathbf{P}(A_n \cap B) \\ &= \mathbf{P}(B) \sum_{n \in \mathbb N} \mathbf{P}(A_n | B) \end{aligned}\) 从而可列可加性得证。其他性质显然。
$\Omega$中的完备事件群表示一列至多可数的非零测事件$(B_i)$,满足不相容且并集为$\Omega$
(复合概率公式)设$(B_i)$为一有限列事件且其积事件非零测,那么: \(\mathbf{P}(B_1 \cdots B_n) = \mathbf{P}(B_1) \mathbf{P}(B_2 | B_1) \cdots \mathbf{P}(B_n | B_1 \cap \cdots \cap B_{n-1})\)
注意到这个命题要求有限事件,因此证明和有限情况完全一致。
(全概率公式)设$(B_i)$为一完备事件群,那么: \(\forall A \in \mathcal A, \; \mathbf{P}(A) = \sum_{i \in I} \mathbf{P}(B_i) \mathbf{P}(A | B_i)\)
将$AB$拆分为$\uplus AB_i$然后利用可加性即得证。
(贝叶斯公式)设$A$为一非零测事件,$(B_i)_{i \in I}$为一完备事件群,那么: \(\mathbf{P}(B_i | A) = \frac{\mathbf{P}(B_i) \mathbf{P}(A|B_i)}{\sum_{j \in I} \mathbf{P}(B_j) \mathbf{P}(A|B_j)}\)
独立性
我们首先回忆有限情况下独立的定义:
- 称一组事件$A_1, \dots, A_n \in \mathcal A$是独立的,若 \(\begin{aligned} &\forall I \in \{ 1, \dots, n\}, \\ &\quad \mathbf P(\bigcap_{i \in I} A_i) = \prod_{i \in I} \mathcal P(A_i) \end{aligned}\)
- 称一组随机变量$X_1, \dots, X_n$是独立的,若 \(\begin{aligned} &\forall A_1 \in X_1(\Omega), \dots, \forall A_n \in X_n(\Omega), \\ & \quad \mathbf{P}(X_1 \in A_1, \dots, X_n \in A_n) = \prod_{i=1}^n \mathbf{P}(X_i \in A_i) \end{aligned}\)
- 称一组$\mathcal A$中的σ-代数$\mathcal A_1, \dots, \mathcal A_n$是独立的,若 \(\begin{aligned} &\forall (A_1, \dots, A_n) \in \mathcal A_1 \times \cdots \times \mathcal A_n, \\ &\quad \mathbf{P}(A_1 \cdots A_n) = \mathbf{P}(A_1) \cdots \mathbf{P}(A_n) \end{aligned}\)
还有两个常用的命题:
- 一组事件独立,等价于其指示变量独立,等价于其指示变量产生的σ-代数独立。
- 一组随机变量独立$X_1, \dots, X_n$,当且仅当: \(\begin{aligned} & \forall (x_1, \dots, x_n) \in X_1(\Omega) \times \cdots \times X_n(\Omega), \\ & \quad \mathbf{P}(X_1 = x_1, \dots, X_n = x_n) = \prod_{i=1}^n \mathbf{P}(X_i = x_i) \end{aligned}\)
我们在此处不对这些命题加以证明。
接下来我们给出无穷个事件的独立性的定义。
称一列事件$(A_n)$为独立的,若对所有的$k \in \mathbb N$,$A_1, \dots, A_k$是独立的,即: \(\forall k, \quad \mathbf{P} (A_1 \cap \cdots \cap A_k) = \mathbf P (A_1) \times \cdots \times \mathbf P (A_k)\) 同理,一列随机变量$(X_n)$是独立的,若对所有自然数$k$,$X_1, \dots, X_k$是独立的。
博雷尔-坎泰利法则
(博雷尔-坎泰利零一律)若一列事件$(A_n)$为独立的,那么: \(\mathbf P (\limsup A_n) = \begin{cases} 1 & \text{若} \sum_{n \in \mathbb N} \mathbf P (A_n) \text{收敛} \\ 0 & \text{若} \sum_{n \in \mathbb N} \mathbf P (A_n) \text{发散} \end{cases}\)
我们马上介绍两个用于证明此法则的引理。
第一引理
(博雷尔-坎泰利第一引理)设$(A_n)$为一列事件,那么若所有事件发生的概率的总和是有限的,则无穷多个事件同时发生的概率为零,或同时发生的事件的数量几乎一定有限。 即,若$\sum_{n \in \mathbb N} \mathbf P(A_n)$收敛,那么 \(\mathbf{P} (\limsup_{n \to \infty} A_n) = 0\)
记$U_n = \bigcup_{k = n}^\infty A_k$,显然$(U_n)$递减。 我们知道: \(\mathbf{P} (U_n) \le \sum_{k = n}^\infty \mathbf P (A_k)\) 由于$\sum_{n \in \mathbb N} \mathbf P(A_n)$收敛,其部分和趋于零,两边同时取极限,可得: \(\lim_{n \to \infty} \mathbf{P} (U_n) \le 0 \implies \lim_{n \to \infty} \mathbf{P} (U_n) = 0\) 根据定义: \(\mathbf{P} (\limsup A_n) = \mathbf{P} (\bigcap_{n \in \mathbb N} U_n) = \lim_{n \to \infty} \mathbf{P} (U_n) = 0\)
理解这个命题的物理意义的关键在于理解上极限的物理意义,即 若事件$\omega$在一列集合的上极限中,那么事件一定在集合列中出现了无穷次。 \(\begin{aligned} \omega \in \limsup A_n &\iff \forall n \; \exists k \ge n \quad \omega \in A_k \\ &\iff \text{存在子列} (A_{\nu(n)}) \text{满足} \omega \in A_{\nu(n)} \\ &\iff \{ n \in \mathbb{N} | \omega \in A_n \} \text{无穷大} \end{aligned}\)
这个引理中,我们不要求这列事件是独立的。
第二引理
(博雷尔-坎泰利第二引理)设$(A_n)$为一列独立事件,且$\sum_{n \in \mathbb N} \mathbf P(A_n)$发散,那么 \(\mathbf{P} (\limsup_{n \to \infty} A_n) = 1\)
记$U_n = \bigcup_{k = n}^\infty A_k$,则$U_n^C = \bigcap_{k=n}^\infty A_n^c$。 设$p \ge n$,有: \(\begin{aligned} \mathbf{P} (\bigcap_{k=n}^\infty A_k^C) &= \prod_{k=n}^\infty \mathbf{P} (A_n^C) & (\text{独立性}) \\ &= \prod_{k=n}^\infty \big(1 - \mathbf{P}(A_n) \big) \\ &\le \prod_{k=n}^\infty \exp \left[ - \mathbf{P}(A_n) \right] & (1+x \le e^x) \\ &\le \exp \lbrack - \sum_{k=n}^\infty \mathbf{P}(A_n) \rbrack \end{aligned}\) 由于$\sum_{n \in \mathbb N} \mathbf P(A_n)$是一个发散的正项级数,因此其部分和趋于无穷,从而两边取极限,可得: \(\lim_{p \to \infty} \mathbf{P} (\bigcap_{k=n}^\infty A_k^C) = 0\) 从而有: \(\begin{aligned} \mathbf{P} (\limsup A_n) &= \lim_{n \to \infty} \mathbf{P}(U_n) \\ &= 1 - \lim_{n \to \infty} \mathbf{P}(U_n^C) \\ &= 1 - \lim_{n \to \infty} \mathbf{P} (\bigcap_{k=n}^\infty A_k^C) \\ &= 1 \end{aligned}\)