离散概率空间

本章中我们将重新研究级数，即至多可数个实数或复数组成的序列之和，的性质，然后研究更一般的概率空间，即离散概率空间。

正可和实数族

在本节中，我们将仅仅研究正实数，作为之后研究的基础。

记$(a_i)_{i \in I}$为一族至多可数的正实数。

可和族的定义

我们称正实数族$(a_i)_{i \in I}$的和为$\overline{\mathbb R_+}$中的一个广义实数（即正实数、零和正无穷），定义为： $\sum_{i \in I} a_i = \sup_{F \in \mathcal P_f(I)} \sum_{i \in F} a_i$ 其中$\mathcal P_f(I)$表示$I$的一个有限子集。若这个和小于正无穷，那么称这个实数族是可和的。

设$I$为一可数集，$\varphi: \mathbb N \to I$为任意双射，那么$(a_i)$可和，当且仅当 $\sum_{n = 0}^\infty a_{\varphi(n)}$ 收敛。无论是否收敛，两者（在广义实数上）一定相等。

有几点值得注意的地方。首先，对于一个正项级数，其要么收敛，要么趋于正无穷，而不会出现没有极限的情况。其次，对正项级数，可和和级数收敛似乎没有区别，但是在之后对更一般的复数的研究中，我们将会看到，和可和对应的概念实际上是绝对收敛。

分组求和

设$(a_i)_{i \in I}$为一族至多可数的正实数。设$(I_j)_{j \in J}$为$I$的一个划分。那么，$(a_i)$可和，当且仅当对每个划分中的子集$I_j$，$(a_i)_{i \in I_j}$可和且$(\sum_{i \in I_j} a_i)_{j \in J}$可和。此时有： $\sum_{i \in I} a_i = \sum_{j \in J} \left( \sum_{i \in I_j} a_i \right)$

对有限个元素的情况，这个命题是显然的，因此我们只考虑可数的情况。
首先考虑后推前。记$K \in I$为一个有限的集合，且$K_j = I \cap I_j$，那么$K_j$也构成$K$的一个划分。由于$K$是有限的，我们直接有： $\sum_{k \in K} a_k = \sum_{j \in J} \left( \sum_{k \in K_j} a_k \right)$ 由于对每一个$j$，我们都有$K_j \subset I_j$，从而 $\sum_{k \in K_j} a_k \le \sum_{i \in I_j} a_i$ 因此又由于$(\sum_{i \in I_j} a_i)_{j \in J}$可和， $\sum_{k \in K} a_k \le \sum_{j \in J} \left( \sum_{i \in I_j} a_i \right) < +\infty$ 从而根据定义， $\sum_{i \in I} a_i = \sup_{F \in \mathcal P_f(I)} \sum_{i \in F} a_i \le \sum_{j \in J} \left( \sum_{i \in I_j} a_i \right) < +\infty$ 然后考虑前推后。设$j \in J$，$K \subset I_j \subset I$，且$K$有限，那么有： $\sum_{i \in K} a_i \le \sum_{i \in I} a_i < +\infty$ 由于$K$是任意的有限集合，根据定义，$(a_i)_{i \in I_j}$可和。现在，若$(a_i)_{i \in I_j}$可和，那么根据定义$\sum_{i \in I_j} a_i$是其中所有有限集合之和的上确界，从而$\forall \varepsilon > 0$，存在$K_j$，满足 $\sum_{i \in K_j} a_i \le \sum_{i \in I_j} a_i - \frac{\varepsilon}{2^j}$ 出于方便考虑，我们直接设$J$是从1开始的相邻自然数构成的集合，设$N \in \mathbb N$，有： $\sum_{j=0}^N \sum_{i \in I_j} a_i \le \sum_{j=0}^N \left( \sum_{i \in K_j} + \frac{\varepsilon}{2^j} \right) \le \left( \sum_{i \in K} a_i \right) + \varepsilon \le \left( \sum_{i \in I} a_i \right) + \varepsilon$ 其中$K = \biguplus_{j = 0}^N K_j$是有限的。因此，对任何有限的集合，这个和都是有界的，从而其收敛至一个实数，从而可和。
在后推前的过程中，我们证明了： $\sum_{i \in I} a_i \le \sum_{j=0}^\infty \left( \sum_{i \in I_j} a_i \right)$ 在前推后的过程中，我们证明了： $\sum_{j=0}^N \sum_{i \in I_j} a_i \le \left( \sum_{i \in I} a_i \right) + \varepsilon$ 此式子取极限$N \to \infty, \varepsilon \to 0$即可得到： $\sum_{j=0}^\infty \sum_{i\in I_j} a_i \le \left( \sum_{i \in I} a_i \right)$ 从而等式得证。

这个命题意味着，以任何方式重排数列求和的顺序，只要不重不漏地计算每一个元素，那么求出的和总是相等。

值得注意的是，如果我们把不可和看作可和但和为正无穷的一种特殊情况，那么此定理无论和是否有限都可以使用。这就为正实数族可和的判定提供了一个强有力的工具。

（富比尼公式）设$(a_{i,j})_{i \in I, j \in J}$为一至多可数的正实数族，那么，$(a_{i,j})$可和，当且仅当： $\forall i \in I, \, (a_{i,j})_{j \in J}$可和，且 $(\sum_{j \in J} a_{i,j})_{i \in I}$可和。

此命题显然是上一个命题的特殊情况。

这个命题意味着我们可以任意交换下标的求和顺序，而不影响求和的结果。

积实数族

设$(a_i),(b_j)$为两个至多可数的正实数族，那么其积实数族定义为： $(a_i b_j)_{i \in I, j \in J}$

设$(a_i),(b_j)$为两个可和的正实数族，那么其积实数族满足： $\sum_{i \in I, j \in J} a_i b_j = \left( \sum_{i \in I} a_i \right) \left( \sum_{j \in J} b_j \right)$

直接使用富比尼公式即可。

可和实数或复数族

接下来我们把研究的内容转向更一般的实数和复数上。我们定义： $x^+ = \max(x, 0), \quad x^- = \max(-x,0)$ 从而有： $x = x^+ - x^-, \quad |x| = x^+ + x^-$

可和性的定义

设$(x_i)_{i \in I}$为一族可数的实数列，我们称其可和，若$(x_i^+)$和$(x_i^-)$分别可和。此时，我们定义： $\sum_{i \in I} x_i = \sum_{i \in I} x_i^+ - \sum_{i \in I} x_i^-$ 设$(z_i)_{i \in I}$为一族可数的复数列，我们称其可和，若$(\Re z_i)$和$(\Im z_i)$分别可和。此时，我们定义： $\sum_{i \in I} z_i = \sum_{i \in I} \Re z_i + \mathrm i \sum_{i \in I} \Im z_i$

注意对更一般的实数和复数来讲，可和和级数收敛并不是等价的，我们马上就会研究到这一点。

可和与绝对收敛

设$(z_i)_{i \in I}$为一族可和的复数列，$\mathbb N \to I, n \mapsto i_n$为一双射。那么$(z_i)$可和，当且仅当级数$\sum_{i=0}^\infty z_{i_n}$绝对收敛。此时有： $\sum_{i \in I} z_i = \sum_{n = 0}^\infty z_{i_n}$

我们首先验证实数的情况，然后推广到复数上。设$(x_i) = (z_i)$为一实数列，那么： $\begin{aligned} (x_i) \text{可和} &\iff (x_i^+), (x_i^-) \text{可和} \\ &\iff \sum_{i \in I} x_i^+, \sum_{i \in I} x_i^- \text{收敛} \\ &\iff \sum_{n = 0}^\infty x_{i_n}^+, \sum_{n = 0}^\infty x_{i_n}^- \text{收敛} \\ &\iff \sum_{n = 0}^\infty |x_{i_n}| \text{收敛} & (|x| = x^+ + x^-) \\ &\iff \sum_{n = 0}^\infty x_{i_n} \text{绝对收敛} \end{aligned}$ 并且有： $\sum_{i \in I} x_i = \sum_{i \in I} x_i^+ - \sum_{i \in I} x_i^- = \sum_{n=0}^\infty x_{i_n}^+ - \sum_{n=0}^\infty x_{i_n}^- = \sum_{n=0}^\infty (x_{i_n}^+ - x_{i_n}^-) = \sum_{n=0}^\infty x_{i_n}$ 复数的证明和实数完全相同，只需要把等式$| x | = x^+ + x^-$替换为$| z | \le |\Re z| + |\Im z|$即可。

从而我们有： $(z_i)_{i \in I}$可和，当且仅当$(| z_i |)_{i \in I}$可和。

下标为$I$可和实数列集合$\mathcal l^1(I)$构成一个数列空间$\mathbb R^I$的一个线性子空间，且从实数列到其和的映射是线性的。

根据前述命题，直接使用级数的结论即可。

分组求和

设$(z_i)_{i \in I}$为一族可和的可数复数，且$(I_j)_{j \in J}$为$I$的一个划分，那么对任意$j \in J$，$(z_i)_{i \in I_j}$可和，且$(\sum_{i \in I_j} z_i)_{j \in J}$可和。并且有： $\sum_{i \in I} z_i = \sum_{j \in J} \left( \sum_{i \in I_j} z_i \right)$

以实数列为例。有： $\begin{multline} \sum_{i \in I} x_i = \sum_{i \in I} x_i^+ - \sum_{i \in I} x_i^- \\ = \sum_{j \in J} \left( \sum_{i \in I_j} x_i^+ \right) - \sum_{j \in J} \left( \sum_{i \in I_j} x_i^- \right) = \sum_{j \in J} \left( \sum_{i \in I_j} x_i^+ - \sum_{i \in I_j} x_i^- \right) \\ = \sum_{j \in J} \left( \sum_{i \in I_j} x_i \right) \end{multline}$

同理，我们仍有：

（富比尼定理）设$(x_{i,j})_{(i,j) \in I \times J}$为一可和实数列，那么： $\sum_{(i,j) \in I \times J} x_{i,j} = \sum_{i \in I} \left( \sum_{j \in J} x_{i,j} \right) = \sum_{j \in J} \left( \sum_{i \in I} x_{i,j} \right)$

对两个实数列之积，我们有：

设两实数列$(x_i)_{i \in I}$、$(y_j)_{j \in J}$可和，其积数列$(x_i y_j)_{(i,j) \in I \times J}$可和，且： $\sum_{(i,j) \in I \times J} x_i y_j$ = \left( \sum_{i \in I} x_i \right) \left( \sum_{j \in J} y_j \right)$

这些命题都很容易用分组求和的方式证明。

离散概率空间

离散概率空间的定义

设$\Omega$为一至多可数的集合，装备有一个σ-代数$\mathcal P(\Omega)$，二者合称离散可测空间。若$\Omega$还带有一个概率测度$\mathbf P$，那么称其为一个离散概率（测度）空间。

记$\Omega$为一至多可数的集合。设$\mathbf P$为一个概率测度，那么定义映射$\mathbf p$： $\forall \omega \in \Omega, \; \mathbf p(\omega) = \mathbf P(\{ \omega \})$ ，称为该测度的概率质量函数。该映射在$\Omega$上可和，即$(\mathbf p(\omega))$可和，且： $\forall A \subset \Omega, \; \mathbf P(A) = \sum_{\omega \in A} \mathbf p(\omega)$ 另一方面，若$\mathbf p: \Omega \to \mathbb R_+$为一可和的映射，且其和为一，那么一定存在由以下关系定义的一个概率测度： $\forall A \subset \Omega, \; \mathbf P(A) = \sum_{\omega \in A} \mathbf p(\omega)$ 且该测度满足： $\forall \omega \in \Omega, \; \mathbf p(\omega) = \mathbf P(\{ \omega \})$

很容易根据定义验证其性质。

这个命题说明，给出离散概率空间上的任何一个概率测度，和给出其概率质量函数等价。因此，一个测度的概率质量函数也称为这个测度的分布律。

设$(E, \mathcal P (E))$为一任意可测空间，其上的一个概率测度$\mu$是离散的，若存在一个至多可数的集合$S$使 $\mu(E \backslash S) = 0$ 即该测度只在至多可数的点上非零。利用$S$组成的概率测度空间$(S, \mathcal S, \mu)$是一个离散概率空间。离散测度所有概率非零的事件组成的集合$S$称为这个概率测度的支集（Support）。

任何一个可测空间上的狄拉克测度： $\forall A \in \mathbf P(E) \quad \delta_x (A) = \left\{ \begin{aligned} 1 \; & x \in A \\ 0 \; & x \notin A \end{aligned} \right.$ 都是离散概率测度。

几个常见离散分布

泊松分布

设$\lambda > 0$，则参数为$\lambda$的泊松分布为$\mathbb N$上一概率测度，其概率质量函数为： $\forall k \in \mathbb N, \quad \mathbf p(k) = e^{-\lambda} \frac{\lambda^k}{k!}$ 服从这种分布的随机变量称为泊松变量，记为$X \sim \mathcal P(\lambda)$。

泊松分布的来源由下一个命题展示：

设$(p_n)_{n \in \mathbb N^*}$为一个值在$(0,1)$之中的数列，满足： $p_n \sim_{n \to \infty} \frac{\lambda}{n}, \lambda > 0$ 那么： $\forall k \in \mathbb N, \; \lim_{n \to \infty} \binom{n}{k} p_n^k (1-p_n)^{n-k} = e^{-\lambda} \frac{\lambda^k}{k!}$

简单计算几个等价无穷： $\begin{aligned} \binom{n}{k} &= \frac{n(n-1)\cdots(n-k+1)}{k!} \\ &= \left( 1 - \frac{1}{n} \right) \cdots \left( 1 - \frac{k-1}{n} \right) \frac{n^k}{k!} \\ &\sim \frac{n^k}{k!} \\ p_n^k &= \left( \frac{\lambda}{n} + o(\frac{1}{n}) \right)^k \\ &\sim \frac{\lambda^k}{n^k} \\ (1-p_n)^{n-k} &= \exp [(n-k) \ln (1 - \frac{\lambda}{n} + o(\frac{1}{n}))] \\ &= e^{(n-k)(-\frac{\lambda}{n} + o(\frac{1}{n}))} \\ &\sim e^{-\lambda} \end{aligned}$

这个命题说明了，泊松分布实际上是二项分布的一种极限，是小概率事件（概率为$p$）无穷次独立重复试验后发生次数的分布。

几何分布

设$p \in (0,1)$，参数为$p$的几何分布为$\mathbb N^*$上一概率分布，其概率质量函数为： $\forall k \in \mathbb N^*, \quad \mathbf{p}(k) = p (1-p)^{k-1}$ 服从几何分布的随机变量称为几何变量，记为$X \sim \mathcal G(p)$。

下面一个命题说明了几何分布的由来：

设$p \in (0,1)$，$(X_n)_{n \in \mathbb N^*}$为一列成功概率相同的独立伯努利变量，约定空集的最小值为$\infty$，那么映射 $U(\omega) = \min \{ n \in \mathbb N^* | X_n(\omega) = 1 \}$ 规定了一个随机变量，事件${U = \infty }$是零测的，而除去无穷后定义的随机变量服从几何分布。

$\begin{aligned} \mathbf P(U = 1) &= \mathbf P(X_1 = 1) = p \\ \mathbf P(U = k) &= \mathbf P(X_k = 1) \prod_{i=1}^{k-1} \mathbf{P}(X_i = 0) = p (1-p)^{k-1} \\ \end{aligned}$ 对于无穷处的情况，我们知道： $\{U = \infty\} = \bigcap_{k=1}^\infty \{ X_k = 0 \} \subset \bigcap_{k=1}^n \{ x_k = 0 \}, \; \forall n \in \mathbb N^*$ 从而 $\mathbf{P}(U = k) \le \prod_{i=1}^n \mathbf{P}(X_i = 0) = (1-p)^n \to 0$

这个命题说明，几何分布相当于重复多次同概率的独立伯努利试验，第一次取得成功的次数的分布。

（无记忆性）设$U: \Omega \to \mathbb N^*$为一离散随机变量，在$\mathbb N^*$上的任意一点处概率大于零。该变量服从几何分布，当且仅当其满足无记忆性： $\forall n \in \mathbb N, \; \forall k \in \mathbb N^*, \quad \mathbf{P}(U = n+k | U > n) = \mathbf{P}(U = k)$ 这条性质等价于： $\forall n \in \mathbb N, \quad \mathbf{P}(U = n+1 | U > n) = \mathbf{P}(U=1)$

前推后是显然的，代入定义即可。考虑后推前。设该随机变量满足无记忆性的等价形式。记$\mathbf{P}(U=1) = p$。由于$\mathbf{P}(U=1) > 0, \mathbf P(U \neq 1) > \mathbf P(U = 0) > 0$，从而$0 < p < 1$。对条件概率左边取反，可得 $\begin{multline} \mathbf{P}(U \neq n+1 | U>n) = \mathbf{P}(U > n+1 | U>n) = \mathbf{P}(U=1) \\ \iff \mathbf{P}(U > n+1) = (1-p) \mathbf{P}(U>n) \end{multline}$ 从而$\mathbf{P}(U > n) = (1-p)^n$。相邻两项相减即得几何分布。

离散随机变量的矩

和有限的随机变量一样，我们也可以定义离散随机变量的矩——前提是它们存在。

离散随机变量的期望

设$(\Omega, \mathcal A, \mathbf P)$为一概率空间，$X: \Omega \to \mathbb R$为一离散随机变量。若数列$(x \mathbf P(X = x))_{x \in X(\Omega)}$可和（绝对收敛），那么称其具有期望，且其期望为： $\mathbf E X = \sum_{x \in X(\Omega)} x \mathbf P(X=x)$

有界，即存在实数$M$使$\mathbf P(X > M) = 0$，的离散随机变量都具有期望，且$\mathbf E X \le M$。

根据定义，我们要求该数列绝对收敛，而不只是收敛。从定义上看，这是显然的：可和是有限数列求和的自然推广。从实际使用上看，要求数列绝对收敛允许我们交换求和的顺序，从而期望才不会因为顺序而改变，才是有意义的。

（转移公式）设$X: \Omega \to E$为一离散随机变量，且$f: E \to \mathbb R$为一实值函数，则离散随机变量$f(X) = f \circ X$具有期望，当且仅当 $(f(x) \mathbf P(X=x))_{x \in X(\Omega)}$ 可和（绝对收敛），此时： $\mathbf E f(X) = \sum_{x \in X(\Omega)} f(x) \mathbf P(X=x)$

这一命题有时也成为“下意识的统计学家法则”（law of the unconscious statistician）。当为离散随机变量$f(X)$计算期望时，正确的做法是重新计算$f(X)$的分布，而非继续使用$X$的分布。统计学家可能会下意识地直接将式子中的$x$替换为$f(x)$而不计算$f(X)$的分布。幸运的是，该命题告诉我们这两个期望是等价的： $\mathbf E f(X) = \sum_{x \in X(\Omega)} f(x) \mathbf P(X=x) = \sum_{y \in f \circ X(\Omega)} y \mathbf P(f(X)=y)$

若$f(X)$具有期望，那么 $(y \mathbf P(f(X)=y))\_{y \in f(X(\Omega))}$ 可和，从而： $\begin{aligned} E(f(x)) &= \sum_{y \in f(X(\Omega))} y \mathbf P(f(X) = y) \\ &= \sum_{y \in f(X(\Omega))} y \sum_{x \in X(\Omega), f(x) = y} \mathbf P(X=x) \\ &= \sum_{y \in f(X(\Omega))} \sum_{x \in X(\Omega), f(x) = y} f(x) \mathbf P(X=x) \\ &= \sum_{x \in X(\Omega)} f(x) \mathbf P(X=x) \end{aligned}$ 反之亦然，对$f(x)$取绝对值即可证明绝对收敛性。

设$X,Y$为两实值离散随机变量，$V=(X,Y)$为其联合分布。设$f:(x,y) \mapsto x$，$g: (x,y) \mapsto y$。应用上文的定理，可得： $\begin{aligned} \mathbf EX &= \mathbf E f(V) = \sum_{(x,y) \in V(\Omega)} x \mathbf P(X=x,Y=y) \\ &= \sum_{x \in X(\Omega), y \in Y(\Omega)} x \mathbf P(X=x,Y=y) \\ \mathbf EY &= \mathbf E g(V) = \sum_{(x,y) \in V(\Omega)} y \mathbf P(X=x,Y=y) \\ &= \sum_{x \in X(\Omega), y \in Y(\Omega)} y \mathbf P(X=x,Y=y) \\ \end{aligned}$ 注意到两个求和的方式不同，第一个求和是针对联合分布的，其中不含为零的项。

期望的几个性质

若$X$几乎必然为正，既$\mathbb P(X \ge 0) = 1$，且具有期望，那么其期望大于等于零： $\mathbf EX \ge 0$ 且期望为零，当且仅当该随机变量几乎必然为零。

$\begin{aligned} \mathbf EX &= \sum_{x \in X(\Omega)} x \mathbf P(X=x) \\ &= \sum_{x \in X(\Omega), x \ge 0} x \mathbf P(X=x) + \cancel{\sum_{x \in X(\Omega), x < 0} x \mathbf P(X=x)} \\ &\ge 0 \end{aligned}$ 左右相等的情况显然。

离散随机变量$X$具有期望，当且仅当$\vert X \vert$具有期望，且： $\vert \mathrm EX \vert \le \mathrm E \vert X \vert$

注意到可和等价于绝对收敛，因此显然。

（比较审敛）设$X,Y$为二正实值离散随机变量，且$X \le Y$。若$Y$具有期望，那么$X$也具有期望，且$\mathbf EX \le \mathbf EY$。

\[\begin{aligned} \mathbf EX &= \sum_{x,y \in V(\Omega)} x \mathbf P(X=x,Y=y) \\ &\le \sum_{x,y \in V(\Omega)} y \mathbf P(X=x,Y=y) = \mathbf EY \le \infty \end{aligned}\]

（期望的线性）记$\mathcal L_d^1(\Omega)$为具有期望的离散实值随机变量的集合，则该集合是$\mathbb R^\Omega$的一个线性子空间。且期望算子 $\mathbf E: \mathcal L_d^1(\Omega) \to \mathbb R$ 是其上的一个线性算子。

略。

设$X,Y \in \mathcal L_d^1(\Omega)$。若$X,Y$独立，则$XY$具有期望，且$\mathbf E(XY) = \mathbf EX \mathbf EY$

记$V=(X,Y)$，$h: (x,y) \mapsto xy$，则$\mathbf EXY = \mathbf E h(V)$。从而$\mathbf EXY$存在当且仅当 $(xy \mathbf P(X=x) \mathbf P(Y=y))_{x \in X(\Omega), y \in Y(\Omega)}$ 可和（绝对收敛）。考虑到$(x \mathbf P(X=x))$和$(y \mathbf P(Y=y))$均可和，那么其积数列可和，且积数列等于两数列之积，从而$\mathbf EXY = \mathbf EX \mathbf EY$

离散随机变量的高阶矩

称离散随机变量$X: \Omega \to \mathbb R$具有$r$阶矩（$r \in \mathbb N^*$），若$X^r$具有期望。此时，称该随机变量的$r$阶矩为$\mathbf E(X^r)$。

具有$r$阶矩的离散随机变量的集合记为$\mathcal L_d^r (\Omega)$。 $\mathcal L_d^r (\Omega)$是$\mathcal L_d^{r-1} (\Omega)$的子空间。这意味着具有方差的随机变量一定具有期望。

几个常见不等式

本章中我们将介绍几个常见的不等式，其证明和有限情况大致相同，因此不再重复。

（均值不等式）设$X$为一个具有期望的离散随机变量，且非几乎必然为常数，那么： $\inf X < \mathbf E(X) < \sup X$

注意到$\sup X - X > 0$，那么其期望必然大于零，从而证明了右侧不等式。用$-X$替换$X$即可证明另一侧。

（柯西-施瓦茨不等式）设$X,Y$为二具有二阶矩的离散随机变量，则： $|\mathbf E (XY)| \le \sqrt{\mathbf E(X^2) \mathbf E(Y^2)}$

（琴生不等式）设$I$为一非空区间，$\phi: I \to \mathbb R$为一凸（convex）函数，则： $\phi(\mathbf E \; X) \le \mathbf E (\phi(X))$

（马尔可夫不等式）设$X$为一具有期望的正离散随机变量，则： $\mathbf P(X \ge t) \le \frac{\mathbf E \; X}{t}, \quad \forall t > 0$ 更一般地，对于一个非空区间$I$上的增函数$\phi$，那么： $\mathbf P(X \ge t) \le \frac{\mathbf E (\phi(X))}{\phi(t)}, \quad \forall t > 0$

（切比雪夫不等式）设$X$是一个具有二阶矩的离散随机变量，那么： $\mathbf P(|X - \mathbf E \; X| \ge t) \le \frac{\mathbf V(X)}{t^2}, \quad \forall t > 0$

概率生成函数

本节中我们将研究离散概率空间$(\Omega, \mathcal A, \mathbf P)$上的离散随机变量的生成函数。

生成函数的定义与基本性质

称离散随机变量$X: \Omega \to \mathbb N$的生成函数（也称母函数）定义为： $G_X: \; [-1, 1] \to \mathbb R; \quad t \mapsto \sum_{k=0}^\infty \mathbf P(X=k) t^k$ 对任意的离散随机变量，级数在$[-1,1]$上正规收敛（normally convergent），因此该函数是良定义的。

注意到 $\forall k, \forall t \in [-1,1], \begin{cases} | \mathbf P(X=k) t^k | \le \mathbf P(X=k) \\ \sum_{k=0}^\infty \mathbf P(X=k) = 1 < \infty \end{cases}$ 因此级数每一项的上界收敛，根据定义，该级数正规收敛。

该函数在$[-1,1]$上连续，在$(-1,1)$上光滑（无穷阶可导），且$G_X(1) = 1$；
$\forall t \in [-1,1], \quad G_X(t) = \mathbf E(t^X)$ 这也是生成函数的等价定义之一。
$G_X$唯一确定$X$的分布律。

显然。
注意到$t^X$有界，因此一定具有期望。应用转移公式即可： $G_X(t) = \sum_{k=0}^\infty \mathbf P(X=k) (t^k) = \mathbf E(t^X)$
可将$\sum_{k=0}^\infty \mathbf P(X=k) (t^k)$看作$G_X$在零附近的幂级数展开，此时： $\mathbf P(X=k) = \frac{G_X^{(k)}(t)}{k!}$

常见离散变量的生成函数

服从参数为$\lambda$的泊松分布的离散随机变量的母函数为： $G(t) = e^{\lambda(t-1)}$ 服从参数为$p$的偏移几何分布（即从一开始，而不是从零开始）的离散随机变量的母函数为： $G(t) = \frac{pt}{1-(1-p)t}$

对泊松分布，有： $G(t) = \sum_{k=0}^\infty e^{-\lambda} \frac{\lambda^k}{k!} t^k = e^{-\lambda} e^{\lambda t} = e^{\lambda(t-1)}$ 该函数可解析延拓至$\mathbb R$上。
对几何分布，有： $G(t) = \sum_{k=1}^\infty p (1-p)^{k-1} t^k = pt \sum_{k=0}^\infty (1-p)^k t^k = \frac{pt}{1-(1-p)t}$ 该函数可解析延拓至$(-\frac{1}{1-p}, \frac{1}{1-p})$上。

生成函数与独立性

设$X,Y$两自然数上的独立离散随机变量，则： $G_{X+Y} = G_X \cdot G_Y$

若$X,Y$独立，则$t^X, t^Y$独立，从而： $G_{X+Y}(t) = \mathbf E(t^X t^Y) = \mathbf E(t^X) \mathbf E(t^Y) = G_X(t) \cdot G_Y(t)$

注意到两独立离散随机变量的和的分布是一个柯西积（卷积）： $\mathbf P(X+Y = k) = \sum_{i+j=k} \mathbf P(X=i) \mathbf P(Y=j)$ 不难发现，生成函数类似于傅里叶变换和拉普拉斯变换，能够将分布（概率质量函数）的卷积转化为乘积，实际上这种离散的变换称为Z变换。对于连续的随机变量，其分布（概率密度函数）的傅里叶变换称为特征函数，拉氏变换称为矩生成函数，都具有和生成函数类似的功能。

设$X_1, \dots, X_n$为有限个独立离散随机变量，则： $G_{X_1 + \cdots + X_N} = \prod_{i=1}^n G_{X_i}$

利用生成函数证明多个独立泊松分布的和的分布仍为泊松分布。
设$X_1, \dots, X_n$为独立的服从泊松分布的离散随机变量，其参数分别为$\lambda_1, \dots, \lambda_n$。则： $\forall t \in [-1,1], \; G_{X_1+\cdots+X_n}(t) = \prod_{i=1}^n e^{\lambda_i (t-1)} = e^{(\lambda_1 + \cdots + \lambda_n)(t-1)}$ 其生成函数仍是泊松分布的生成函数。由于分布律由生成函数唯一确定，因此其一定服从泊松分布。

生成函数与矩

设$X$为一自然数上的离散随机变量，$r \in \mathbb N^*$，以下三条命题等价：
1）$X$具有$r$阶矩；
2）$G_X$在$[0,1]$上$r$阶可导；
3）$G_X$在$1$处具有$r$阶左导数。
若满足以上三条命题，则： $G_X^{(r)}(1) = \mathbf E[X(X-1) \cdots (X-r+1)]$

从而我们可以利用生成函数计算随机变量的期望与方差：随机变量$X$期望有界，当且仅当$G_X$在$1$处具有一阶左导数，此时： $\mathbf EX = G_X^\prime(1)$ 随机变量$X$具有方差，当且仅当$G_X$在$1$处具有二阶左导数，此时： $\mathbf VX = G_X^{\prime\prime}(1) + G_X^\prime(1) - \left(G_X^\prime(1)\right)^2$

设$(X_n)_{n \in \mathbb N}$为一列独立的同分布离散随机变量，$N$为一自然数上的离散随机变量，且与$(X_n)$独立。设 $S = X_1 + X_2 + \cdots + X_N$ 试求$S$的期望。
首先不难验证$S$也是一个离散随机变量，计算其分布，可得： $\begin{aligned} \mathbf P(S = k) &= \sum_{n=1}^\infty \mathbf P(X_1 + \dots + X_N = k | N = n) \mathbf P(N=n) \\ &= \sum_{n=1}^\infty \mathbf P(X_1 + \dots + X_n = k | N = n) \mathbf P(N=n) \\ &= \sum_{n=1}^\infty \mathbf P(X_1 + \dots + X_n = k) \mathbf P(N=n) \end{aligned}$ 最后一步能省去条件概率，是因为$N$和其他变量均独立。然后计算生成函数： $\begin{aligned} G_S(t) &= \sum_{k=1}^\infty \mathbf P(S=k) t^k \\ &= \sum_{k=1}^\infty \left( \sum_{n=1}^\infty \mathbf P(X_1 + \cdots + X_n = k) \mathbf P(N=n) \right) t^k \\ &= \sum_{n=1}^\infty \mathbf P(N=n) \sum_{k=1}^\infty \mathbf P(X_1 + \cdots + X_n = k) t^k \\ &= \sum_{n=1}^\infty \mathbf P(N=n) G_{X_1 + \cdots + X_n}(t) \\ &= \sum_{n=1}^\infty \mathbf P(N=n) G_{X_1}^n(t) \\ &= G_N (G_{X_1}(t)) \end{aligned}$ 我们知道这些数列都是绝对收敛的，从而能够交换求和顺序。从而我们有： $G_S = G_N \circ G_{X_1}$ 进而： $\mathbf E(S) = G_S^\prime(1) = G_N^\prime(G_{X_1}(1)) G_{X_1}^\prime(1) = \mathbf E(N) \mathbf E(X_1)$ 这一公式称为瓦尔德恒等式（Wald’s identity）。

计算常见离散分布的矩

我们知道，服从参数为$\lambda$的泊松分布的离散随机变量的母函数为： $G(t) = e^{\lambda(t-1)}$ 服从参数为$p$的几何分布的离散随机变量的母函数为： $G(t) = \frac{pt}{1-(1-p)t}$

利用生成函数可以计算这些函数的期望和方差： $X \sim P(\lambda) \implies \mathbf EX = \lambda, \mathbf VX = \lambda$ 而： $X \sim G(p) \implies \mathbf EX = \frac{1}{p}, \mathbf VX = \frac{1-p}{p^2}$

Twitter Facebook LinkedIn

mmmhj2

离散概率空间

正可和实数族

可和族的定义

分组求和

积实数族

可和实数或复数族

可和性的定义

可和与绝对收敛

分组求和

离散概率空间

离散概率空间的定义

几个常见离散分布

泊松分布

几何分布

离散随机变量的矩

离散随机变量的期望

期望的几个性质

离散随机变量的高阶矩

几个常见不等式

概率生成函数

生成函数的定义与基本性质

常见离散变量的生成函数

生成函数与独立性

生成函数与矩

计算常见离散分布的矩

分享

猜您还喜欢

旋转背后的数学

非线性系统——第二部分

非线性系统——第一部分

向量的外积、张量积和楔积