更一般的概率测度

本章中我们将继续进行概率论的学习，但是不再研究有限的情况，而是向前一步，考虑离散（可数）的情况。

在此处，我们规定“可数”与“可列”是完全相同的，除非特殊指明，否则仅包括可与$\mathbb{N}$建立双射的集合，而不包括有限的集合。

概率空间

设$\Omega$为一任意非空集合，集合$\mathcal A$为$\mathcal P(\Omega)$（幂集）的子集，若其满足以下三条公理，则称其为$\Omega$上的σ-代数： $\begin{array}{lc} & \Omega \in \mathcal A \\ \forall A \in \mathcal A & A^C \in A \\ \forall A_1, A_2, \dots \in \mathcal A & \bigcup_{n \in \mathbb N} A_n \in \mathcal A \end{array}$

这里我们不再要求其两两子集的并集对集合封闭，转而要求任意可数个子集的并集对集合封闭。

我们知道，一个集合的子集的集合只要包含全集，关于有限个并、交封闭，对补集封闭，就可以构成一个代数，这种代数称为集合域。一个集合域不一定是一个σ-代数，但是一个σ-代数一定是一个集合域。相对地，如果$\Omega$有限，那么所有集合域自然都是σ-代数。

一个集合$\Omega$和其上的一个σ-代数$\mathcal A$合称一个可测空间，这个σ-代数定义了一个可以被测度的$\Omega$的子集。 $\mathcal A$的一个元素称为事件。

上极限与下极限

我们根据集合的包含这一偏序关系定义一列集合$(A_n)$的下极限和上极限： $\begin{aligned} \liminf_{n \to \infty} A_n &= \bigcup_{n=0}^\infty \bigcap_{m=n}^\infty A_m \\ \limsup_{n \to \infty} A_n &= \bigcap_{n=0}^\infty \bigcup_{m=n}^\infty A_m \end{aligned}$

一列集合的下极限中包含所有出现了无限次且仅消失有限次的元素；而上极限中包含了所有出现了无限次的元素，无论其是否在无限个集合中消失。

回忆数列中定义的下极限和上极限，在数列中，下极限是极限点的下确界，也就是数列趋于无穷而忽略有限个点时，使数列的所有值大于等于它的最大实数。我们用集合的“包含”这一偏序关系替代实数的“大于等于”，就能得到集合的下极限的定义，即忽略掉消失有限次的元素后，所有集合都包含它的最大集合。

在实数中，我们知道上极限大于等于下极限，从而集合的上极限一定包含下极限。

设$\mathcal C$为$\mathcal{P}(\Omega)$的一个集合，那么存在最小（在包含这一含义下）的σ-代数，使其包含$\mathcal C$。这样的σ-代数记为$\sigma(\mathcal C)$。

注意到若$(A_i)$是一个σ-代数，那么$(\cap A_i)$也是一个σ-代数，因此所有包括$\mathcal C$的σ-代数的交就是$\sigma(\mathcal C)$。

类似极限的定义，如果一列集合的上极限和下极限相等，那么称其收敛至这个极限，记为$\lim_{n \to \infty} A_n$。

离散随机变量

设$(\Omega, \mathcal A)$为一可测空间，$E$为一集合，那么称映射$X: \Omega \to E$为$E$上的离散随机变量，若： $\begin{aligned} \forall B \in \mathcal P(E), \quad &X^{-1}(B) \in \mathcal A \\ &X(\Omega) \text{至多可数} \end{aligned}$ 若映射$X$满足上一条件，则称$X$是$\mathcal A$-可测的。

根据定义，有限的随机变量是离散的。

随机变量$X$是离散的，当且仅当$X(\Omega)$至多可数，且： $\forall x \in E, \quad X^{-1}(\{x\}) = \{ X = x \} \in \mathcal A$

σ-代数的原子

设$\mathcal D = \{ A_i \in \mathcal P(\Omega), i \in I \}$为$\Omega$的一个至多可数的分划，那么$\sigma(\mathcal D)$是所有形如$\cup_{i \in J} A_i, J \subset I$的集合构成的集合。
反之，若$\Omega$至多可数，$\mathcal A$为其上一个σ-代数，那么存在唯一的分划$\mathcal D$满足$\sigma(\mathcal D) = \mathcal A$ 这种分划$\mathcal D$称为这个σ-代数的原子。

设$(\Omega, \mathcal A)$为一可测空间，则：
设$X : \Omega \to E$为一离散随机变量，记 $\mathcal D_X = \{ \{X = x\}, \; x \in X(\Omega) \}$ 那么： $\sigma(\mathcal D_X) = \sigma(X) = \{ X^{-1}(B), \; B \in \mathcal P (E) \}$ 这个σ-代数称为X生成的代数。
反之，设$\mathcal D$为$\Omega$的一个至多可数的分划，那么存在唯一的离散随机变量$X$，使$\sigma(X) = \sigma(\mathcal D)$

这些命题的证明和有限情况下的别无二致。

概率测度

设$(\Omega, \mathcal A)$为一可测空间，其上的一个概率测度定义为正实数映射： $\mathbf P : \mathcal A \to \mathbb R_+$ 满足：
1）$\mathbf{P} (\Omega) = 1$ 2）若$(A_n)_{n \in \mathbb N}$为一组不相交的集合，那么 $\mathbf{P}(\biguplus_{n \in \mathbb N} A_n) = \sum_{n \in \mathbb{N}} \mathbf{P}(A_n)$ 这一性质称为可数可加性或σ-可加性。

从定义上讲，这个测度实际上就是有限个集合对可数情况的推广。然而，实际情况是，寻找到这样一个测度往往是最困难的部分。

以自然数集合$\mathbb{N}$为例，我们甚至不能在数学上定义“等概率地随机取一个自然数”。我们设取到每一个自然数的概率为$p$，那么根据可数可加性，不难发现： $\mathbf{P} (\mathbb{N}) = \sum_{n \in \mathbb N} p = 1$ 而常数$p$不可能存在。

尽管如此，我们仍然假设这个测度存在，并研究它的性质。

概率测度的基本性质

\[\mathbf P (\emptyset) = 0\]
\[\forall A, B \in \mathcal A, A \subset B \iff \mathbf P (A) \le \mathbf P(B)\]
\[\forall A_1, \dots, A_n \in \mathcal A, \mathbf{P}(A_1 + \cdots A_n) \le \mathbf{P}(A_1) + \cdots + \mathbf{P}(A_n)\]
\[\forall A \in \mathcal A, \mathbf{P}(A) \in [0,1]\]

这些命题的证明都比较基本，此处不再赘述。值得注意的是，由于无穷的存在，我们最好区分有穷个集合（如第3条）和无穷个集合组成的集合列。

集合列的概率测度

设$(A_n)$为一列递增（包含的含义下）的集合列，那么： $\lim_{n \to \infty} \mathbf{P}(A_n) = \mathbf{P}(\bigcup_{n=0}^\infty A_n)$ 反之，若其为递减的，那么： $\lim_{n \to \infty} \mathbf{P}(A_n) = \mathbf{P}(\bigcap_{n=0}^\infty A_n)$

这两个命题可以将极限从概率的内侧移到外侧，因此也被称为概率的单调连续性。

有： $\cup_{n=p}^\infty A_n = A_p \cup (A_{p+1} \backslash A_p) \cup \cdots$ 从而 $\begin{aligned} \mathbf{P}(\bigcup_{n=0}^\infty A_n) &= \mathbf{P}(\bigcup_{n=p}^\infty A_n) &\text{序列递增} \\ &= \mathbf{P} (A_p) + \sum_{n=p}^\infty \mathbf{P}(A_{n+1} \backslash A_n) \\ \end{aligned}$ 又因为$\sum \mathbf{P}(A_{n+1} \backslash A_n) = \mathbf{P} (\lim A_n)$等于常数而收敛，从而其部分和的极限等于零。上式右侧取$p \to \infty$，可得： $\mathbf{P}(\bigcup_{n=0}^\infty A_n) = \lim_{p \to \infty} \mathbf{P} (A_p)$ 从而原命题得证。另一个命题取补集即可。

设$A \in \mathcal A$为一事件，称其为可忽略的，或零测的，若$\mathbf{P}(A) = 0$；称其为几乎必然的，若$\mathbf{P}(A) = 1$。

设$A$为一列递增集合的并集，那么其几乎必然发生，当且仅当$\lim \mathbf{P} (A_n) = 1$，即最大的集合几乎必然发生；若其为一列递减集合的交集，那么其为零测，当且仅当$\lim \mathbf{P} (A_n) = 0$，即最小的集合零测。

这个命题很容易由上个命题推得。

设$(A_n)$为一列事件，那么 $\mathbf{P} (\bigcup_{n \in \mathbb N} A_n) \le \sum_{n \in \mathbb N} \mathbf{P}(A_n)$

这个命题就是此前的性质的无穷形式。

设$U_n = \cup_{k=0}^n A_k$，那么这列集合是递增的，且$\cup_{n \in \mathbb N} U_n = \cup_{n \in \mathbb N} A_n$。有： $\mathbf{P} (\bigcup_{n \in \mathbb N} A_n) = \lim_{n \to \infty} \mathbf{P} (U_n)$ 从而有： $\begin{aligned} \mathbf{P}(B_n) &= \mathbf{P}(\bigcup_{k=0}^n A_k) \le \sum_{k=0}^n \mathbf{P}(A_k) &\text{（有限个事件）} \\ \mathbf{P}(B_{n+1}) &= \mathbf{P}(B_n \cup B_{n+1}) \\ &= \mathbf{P}(B_n) + \mathbf{P}(A_{n+1}) - \mathbf{P}(B_n \cap A_{n+1}) \\ &\le \sum_{k=0}^{n+1} \mathbf{P}(A_k) \end{aligned}$ 然后由归纳法即可得证。

有限或可数个零测事件的并集仍是零测事件。

这个命题看上去是对性质的简单推广，实际上却使用较为复杂的技巧来用有穷的情况推知无穷的情况。在数学上，一切涉及无穷的概念都必须得到严格的讨论，因为其结果往往是反直觉的。

条件概率

只要明确了可数情况下条件概率的定义，其性质实际上和有限情况下相差无几。

设$B \in \mathcal A$为一非零测事件，映射： $\begin{array}{cccc} \mathbf{P}_B: & \mathcal A & \to & \mathbb R_+ \\ & A & \mapsto & \frac{\mathbf{P}(A \cap B)}{\mathbf{P}(B)} \end{array}$ 构成$\Omega$上的一个概率测度，称为条件概率测度。记： $\mathbf{P} (A|B) = \mathbf{P}_B (A) = \frac{\mathbf{P}(A \cap B)}{\mathbf{P}(B)}$ 称为B发生条件下A的概率。

设$(A_n)$为一列不相容事件，那么$(A_n \cap B)$也是不相容的，从而： $\begin{aligned} \mathbf{P}_B(\biguplus_{n \in \mathbb N} A_n) \times \mathbf{P}(B) &= \mathbf{P} ( \left( \biguplus_{n \in \mathbb N} A_n \right) \cap B ) \\ &= \mathbf{P} \left( \biguplus_{n \in \mathbb N} (A_n \cap B) \right) \\ &= \sum_{n \in \mathbb N} \mathbf{P}(A_n \cap B) \\ &= \mathbf{P}(B) \sum_{n \in \mathbb N} \mathbf{P}(A_n | B) \end{aligned}$ 从而可列可加性得证。其他性质显然。

$\Omega$中的完备事件群表示一列至多可数的非零测事件$(B_i)$，满足不相容且并集为$\Omega$

（复合概率公式）设$(B_i)$为一有限列事件且其积事件非零测，那么： $\mathbf{P}(B_1 \cdots B_n) = \mathbf{P}(B_1) \mathbf{P}(B_2 | B_1) \cdots \mathbf{P}(B_n | B_1 \cap \cdots \cap B_{n-1})$

注意到这个命题要求有限事件，因此证明和有限情况完全一致。

（全概率公式）设$(B_i)$为一完备事件群，那么： $\forall A \in \mathcal A, \; \mathbf{P}(A) = \sum_{i \in I} \mathbf{P}(B_i) \mathbf{P}(A | B_i)$

将$AB$拆分为$\uplus AB_i$然后利用可加性即得证。

（贝叶斯公式）设$A$为一非零测事件，$(B_i)_{i \in I}$为一完备事件群，那么： $\mathbf{P}(B_i | A) = \frac{\mathbf{P}(B_i) \mathbf{P}(A|B_i)}{\sum_{j \in I} \mathbf{P}(B_j) \mathbf{P}(A|B_j)}$

独立性

我们首先回忆有限情况下独立的定义：

称一组事件$A_1, \dots, A_n \in \mathcal A$是独立的，若 $\begin{aligned} &\forall I \in \{ 1, \dots, n\}, \\ &\quad \mathbf P(\bigcap_{i \in I} A_i) = \prod_{i \in I} \mathcal P(A_i) \end{aligned}$
称一组随机变量$X_1, \dots, X_n$是独立的，若 $\begin{aligned} &\forall A_1 \in X_1(\Omega), \dots, \forall A_n \in X_n(\Omega), \\ & \quad \mathbf{P}(X_1 \in A_1, \dots, X_n \in A_n) = \prod_{i=1}^n \mathbf{P}(X_i \in A_i) \end{aligned}$
称一组$\mathcal A$中的σ-代数$\mathcal A_1, \dots, \mathcal A_n$是独立的，若 $\begin{aligned} &\forall (A_1, \dots, A_n) \in \mathcal A_1 \times \cdots \times \mathcal A_n, \\ &\quad \mathbf{P}(A_1 \cdots A_n) = \mathbf{P}(A_1) \cdots \mathbf{P}(A_n) \end{aligned}$

还有两个常用的命题：

一组事件独立，等价于其指示变量独立，等价于其指示变量产生的σ-代数独立。
一组随机变量独立$X_1, \dots, X_n$，当且仅当： $\begin{aligned} & \forall (x_1, \dots, x_n) \in X_1(\Omega) \times \cdots \times X_n(\Omega), \\ & \quad \mathbf{P}(X_1 = x_1, \dots, X_n = x_n) = \prod_{i=1}^n \mathbf{P}(X_i = x_i) \end{aligned}$

我们在此处不对这些命题加以证明。

接下来我们给出无穷个事件的独立性的定义。

称一列事件$(A_n)$为独立的，若对所有的$k \in \mathbb N$，$A_1, \dots, A_k$是独立的，即： $\forall k, \quad \mathbf{P} (A_1 \cap \cdots \cap A_k) = \mathbf P (A_1) \times \cdots \times \mathbf P (A_k)$ 同理，一列随机变量$(X_n)$是独立的，若对所有自然数$k$，$X_1, \dots, X_k$是独立的。

博雷尔-坎泰利法则

（博雷尔-坎泰利零一律）若一列事件$(A_n)$为独立的，那么： $\mathbf P (\limsup A_n) = \begin{cases} 1 & \text{若} \sum_{n \in \mathbb N} \mathbf P (A_n) \text{收敛} \\ 0 & \text{若} \sum_{n \in \mathbb N} \mathbf P (A_n) \text{发散} \end{cases}$

我们马上介绍两个用于证明此法则的引理。

第一引理

（博雷尔-坎泰利第一引理）设$(A_n)$为一列事件，那么若所有事件发生的概率的总和是有限的，则无穷多个事件同时发生的概率为零，或同时发生的事件的数量几乎一定有限。即，若$\sum_{n \in \mathbb N} \mathbf P(A_n)$收敛，那么 $\mathbf{P} (\limsup_{n \to \infty} A_n) = 0$

记$U_n = \bigcup_{k = n}^\infty A_k$，显然$(U_n)$递减。我们知道： $\mathbf{P} (U_n) \le \sum_{k = n}^\infty \mathbf P (A_k)$ 由于$\sum_{n \in \mathbb N} \mathbf P(A_n)$收敛，其部分和趋于零，两边同时取极限，可得： $\lim_{n \to \infty} \mathbf{P} (U_n) \le 0 \implies \lim_{n \to \infty} \mathbf{P} (U_n) = 0$ 根据定义： $\mathbf{P} (\limsup A_n) = \mathbf{P} (\bigcap_{n \in \mathbb N} U_n) = \lim_{n \to \infty} \mathbf{P} (U_n) = 0$

理解这个命题的物理意义的关键在于理解上极限的物理意义，即若事件$\omega$在一列集合的上极限中，那么事件一定在集合列中出现了无穷次。 $\begin{aligned} \omega \in \limsup A_n &\iff \forall n \; \exists k \ge n \quad \omega \in A_k \\ &\iff \text{存在子列} (A_{\nu(n)}) \text{满足} \omega \in A_{\nu(n)} \\ &\iff \{ n \in \mathbb{N} | \omega \in A_n \} \text{无穷大} \end{aligned}$

这个引理中，我们不要求这列事件是独立的。

第二引理

（博雷尔-坎泰利第二引理）设$(A_n)$为一列独立事件，且$\sum_{n \in \mathbb N} \mathbf P(A_n)$发散，那么 $\mathbf{P} (\limsup_{n \to \infty} A_n) = 1$

记$U_n = \bigcup_{k = n}^\infty A_k$，则$U_n^C = \bigcap_{k=n}^\infty A_n^c$。设$p \ge n$，有： $\begin{aligned} \mathbf{P} (\bigcap_{k=n}^\infty A_k^C) &= \prod_{k=n}^\infty \mathbf{P} (A_n^C) & (\text{独立性}) \\ &= \prod_{k=n}^\infty \big(1 - \mathbf{P}(A_n) \big) \\ &\le \prod_{k=n}^\infty \exp \left[ - \mathbf{P}(A_n) \right] & (1+x \le e^x) \\ &\le \exp \lbrack - \sum_{k=n}^\infty \mathbf{P}(A_n) \rbrack \end{aligned}$ 由于$\sum_{n \in \mathbb N} \mathbf P(A_n)$是一个发散的正项级数，因此其部分和趋于无穷，从而两边取极限，可得： $\lim_{p \to \infty} \mathbf{P} (\bigcap_{k=n}^\infty A_k^C) = 0$ 从而有： $\begin{aligned} \mathbf{P} (\limsup A_n) &= \lim_{n \to \infty} \mathbf{P}(U_n) \\ &= 1 - \lim_{n \to \infty} \mathbf{P}(U_n^C) \\ &= 1 - \lim_{n \to \infty} \mathbf{P} (\bigcap_{k=n}^\infty A_k^C) \\ &= 1 \end{aligned}$

Twitter Facebook LinkedIn

mmmhj2