实值随机变量

本文继续研究有限概率空间,重点关注其中实值随机变量的特点。

在此文中,我们总是考虑不含零测事件的样本空间。 对可数(无论有限还是无限)的集合,我们都可以将零测事件排除出去,然后研究新的样本空间。 但是对更一般的空间,这个假设不一定是易于满足的。 比如,对于无限次进行的抛硬币游戏,任何可能的结果都是零测的,但是其仍然是良好定义的样本空间。

无论如何,既然我们目前仅研究有限的概率空间,我们总是将零测事件排除出去。

我们记集合L(Ω)表示所有从Ω到实数的映射的集合,因此也是随机变量的集合。 这个集合是R的一个|Ω|维的线性空间,其规范基底为:(1ω)ωΩ,所有随机变量都可以写成: X=ωΩX(ω)1ω

数学期望Permalink

XL(Ω),那么X数学期望(简称期望)或均值定义为: E(X)=xX(Ω)xP(X=x)

数学期望只与随机变量的分布,即其密度函数xP(X=x),有关,即使两个随机变量根本不在同一概率空间上,只要其分布相同,那么它们的期望就是相等的。

  • 伯努利分布的期望为: E(1A)=P(A)
  • 二项分布XB(n,p)的期望为: E(X)=np

期望的性质Permalink

(期望恒正)若X(ω)0,那么E(X)0;若E(X)=0X=0

ωΩ,记p(ω)=P({ω}),设XL(Ω),那么有: E(X)=ωΩX(ω)p(ω)

我们知道,X的原子构成Ω的一个划分,因此在这个划分上求和相当于在整个样本空间上求和: xX(Ω)xP(X=x)=x(ω{X=x}p(ω))=xX(Ω)ω{X=x}X(ω)p(ω)=ωΩX(ω)p(ω)

(期望的线性)映射E:L(Ω)R,XE(X)是一个线性函数。

E(X+μY)=ωΩ(X+μY)(ω)p(ω)=ωΩX(ω)p(ω)+μωΩY(ω)p(ω)=E(X)+μE(Y)

设两个随机变量X,Y满足XY,那么E(X)E(Y)

这个命题的证明较为显然。

X:ΩE为一随机变量,ϕ:ER为一实值函数,那么: E(ϕ(X))=xX(Ω)ϕ(x)P(X=x)

我们知道: ϕ(X)=xX(Ω)ϕ(x)1{X=x} 从而直接使用线性: E(ϕ(X))=E(ϕ(x)1{X=x})=ϕ(x)E(1{X=x})=ϕ(x)P(X=x)

X,Y为二独立的随机变量,那么: E(XY)=E(X)E(Y)

ϕ:R2R,(x,y)xyV=(X,Y),那么XY=Vϕ。 从而直接使用上述定理: E(XY)=(x,y)V(Ω)xyP(X=x,Y=y)=xX(Ω),yY(Ω)xyP(X=x)P(Y=y)=(xX(Ω)xP(X=x))(yY(Ω)yP(Y=y))=E(X)E(Y)

二阶矩Permalink

rNX:ΩR为一随机变量,那么Xr阶矩表示E(Xr)

根据期望的性质,我们知道这个值也只取决于随机变量的分布。 更进一步地,我们有: E(Xr)=xX(Ω)xrP(X=x)

方差与标准差Permalink

XL(Ω),我们称X的方差为: V(X)=E((XE(X))2) 相对地,其标准差为: σX=(V(X))

标准差或方差表征了数据距离其平均值E(X)的分散程度。

以下几个公式可以用来非常方便地计算方差:

  1. 随机变量X的方差为 V(X)=E(X2)(E(X))2
  2. 随机变量的方差是二次齐次的: a,bRV(aX+b)=a2V(X)
  3. 随机变量的方差为零,当且仅当其为常数。

这些命题都可以非常容易地用计算验证。

期望、二次型与协方差Permalink

对有限概率空间中的两个实随机变量X,Y(X,Y)E(XY)是一个正定的对称双线性型,从而XE(X2)是一个正定的二次型

Ω={ω1,,ωn},且P(ωi)=pi>0。 再设X(ωi)=xiY(ωj)=yj。 注意到可以把任何随机变量转化为1的线性组合,那么有: XY=(i=1nxi1ωi)(j=1nyj1ωj)=i=1nj=1nxiyj1ωi1ωj=i=1nxiyi1ωi 从而: E(XY)=E(i=1nxiyi1ωi)=i=1nxiyiE(1ωi)=i=1nxiyipi 已知pi恒正,不难验证这个函数是正定的对称双线性型。

根据代数所学知识,很容易发现,XE(X2)构成一个范数。 实际上所谓方差就是一个随机变量与其期望在期望这一范数下的距离的平方,而标准差就是距离。

接下来,我们自然关心两个随机变量之间是否存在类似的关系,答案是当然。 实际上,方差也是一个二次型,而协方差就是这个二次型对应的极双线性型

设映射: Cov:L(Ω)×L(Ω)R+(X,Y)E((XEX)(YEY)) 这个映射称为两个随机变量的协方差,是方差对应的对称双线性型。 这个双线性型的正惯性指数为N1,负惯性指数为零,其中NΩ的基数。

设映射: φ:L(Ω)L~(Ω)XXE(X)=X~ 其中,L~(Ω)={X|E(X)=0}。 我们已经知道E是一个线性映射,因此L~(Ω)实际上是其核。 根据秩-零化度定理,不难发现L~(Ω)实际上是L(Ω)的一个超平面。 实际上,这个映射是向此超平面的正交投影。 从而我们有: X=X~+EX1ΩE(X2)=E(X~2+2X~EX+E(X)2)=E(X~2)+2E(X~EX)+E(E(X)2)=E(X~2)+2EXEX~+E(E(X)2)=E(X~2)+E(X)2=V(X)+E(X)2 这样我们使用线性映射重新证明了用期望计算方差的公式。 我们知道,V实际上是E(X2)φ的复合,而φ是一个正交投影,这相当于把一个二次型限制在一个子空间上,当然限制后的映射依然是二次型。 此外,我们知道V(X)=E(φ(X)φ(X)),从而容易验证Cov(X,Y)=E(φ(X)φ(Y))是其对应的对称双线性型。 最后,我们知道V(X)在子空间L~(Ω)上恒正,因为若EX=0V(X)=E(X2); 而在其补空间Span(1Ω)上为零,因此其正惯性指数为N1,负惯性指数为零。

X,YL(Ω),|Cov(X,Y)|σXσY

对双线性型Cov应用柯西-施瓦茨不等式即可得证。

Cov(X,Y)=E(XY)(EX)(EY)V(X+Y)=V(X)+V(Y)+2Cov(X,Y)

这两个命题可由简单的计算验证。

从定义上不难看出,协方差也可以作为范数,表征两个随机变量在线性空间上的某种距离,可以作为相关性的一种度量。 为了表征这种相关性,我们选择使用其“夹角”:

定义两个随机变量X,Y的相关系数为: Cov(X,Y)σXσY 若相关系数为一,那么说明两个随机变量“共线”,即存在常数a,b,c满足aX+bY=c; 若相关系数为零,那么说明两个随机变量正交,这样的随机变量称为(线性)无关的。

考虑到Cov作为一个对称的正二次型(虽然不是正定的),也可以以类似范数的方式来使用1,这种定义方式无疑让人联想到内积空间中的夹角。

若两个随机变量是独立的,那么它们是线性无关的。

这个命题的证明比较容易,此处不再赘述。

反之,两个线性无关的随机变量不一定是独立的,这是因为,正如其名,相关系数只能表示线性空间下的相关性。 若两个随机变量以非线性的形式相关(比如一个是另一个的平方),那么就不会在相关系数中表现出来。

若随机变量X1,,Xn两两无关,那么: V(X1+Xn)=V(X1)++V(Xn)

这个命题由简单的计算即可验证。 需要注意的是,这里要求随机变量两两无关,不同于此前要求独立。

典型不等式Permalink

此处列出几个和期望相关的典型不等式。

(柯西-施瓦茨不等式) |E(XY)|E(X2)E(Y2)

考虑到E是一个正定的对称双线性型,这个不等式是显然的。

(琴生不等式)对非零区间上的凸(Convex)函数φ,任何取值在该区间上的随机变量X满足: φ(EX)E(φ(X))

X为常函数的情况易证,不妨设X不是常函数。 凸函数的性质保证: cI,λR,xI,φ(c)+λ(xc)φ(x)c=EXx=X,两边取期望,注意到E(XEX)=0即可得证。

(马尔可夫不等式)设X为一随机变量,那么对所有t>0,有: P(Xt)E(X)tφ为一增函数,那么还有: P(Xt)E(φ(X))φ(t)

有: X=X1X<t+X1XtX1Xtt1Xt 两边同时取期望,注意到1Xt的期望等于P(Xt),即可得证。 注意到P(Xt)=P(φ(X)φ(t)),后一个不等式也可得证。

(切比雪夫不等式)设X为一任意正随机变量,那么对所有t>0,有 P(|XEX|t)V(X)t2

X=|XEX|代入马尔可夫不等式即可得证。 这个不等式可以推广到任意实随机变量,只需要取φ(X)=max(X,0)即可。

假设一个盒子中有10个除颜色以外完全相同的球,各自染上黑色或白色。 有人希望通过从盒子中随机取一个球,查看其颜色,然后放回的方式,估计其中黑色球的数量。 请利用切比雪夫不等式估计,至少要取多少次,才能使出错的概率小于104
我们用伯努利变量来描述一次实验,记第i次实验的结果为Xi,若球为黑色则为一,否则为零。 那么这些变量是一系列独立的、概率为p的伯努利变量,记取出的黑球的总数为Sn=i=1nXn。 要使用切比雪夫不等式,我们需要知道随机变量与其期望的差距,而要保证不犯错误,那么通过随机实验得出的黑球与实际的数量的差距不能过大。 因此,我们需要一个随机变量,其值表示实验得出的黑球数量,而其期望表示实际的黑球数量,变量: 10Snn=10Xn 的期望为10p,满足这个要求。
现在,我们需要确定“不确定度”,即切比雪夫不等式中的t。 我们希望通过实验得出的结果周围一个区间之内只含有一个整数,这样这个整数就一定是10p,从而一定是黑球的数量,代入不等式,可得: P(|10Xn10p|12)=V(10Xn)14=4V(10Snn)=400np(1p)100n 我们要求这个概率小于104,代入即可得n>106,从而n的最小值为1000001

最后补充一个和切比雪夫不等式密切相关的结论。

(单边切比雪夫不等式)设X为一实随机变量,对任意正实数a>0,有: P(XEXa)V(X)V(X)+a2

Y=XEXa,显然其期望为a,而其方差与X相同。 欲证: P(Y0)V(Y)V(Y)+(EY)2=E(Y2)(E(Y))2E(Y2) 移项可得: (EY)2E(Y2)(1P(Y0))=E(Y2)P(Y<0)=E(Y2)E(1Y<0) 根据柯西-施瓦茨不等式,有: (E(Y1Y<0))2E(Y2)E(1Y<02)=E(Y2)E(1Y<0) 据此进行放缩,我们要求: (EY)2(E(Y1Y<0))2 而我们有: Y1Y<0=YY1Y0Y 从而: E(Y1Y<0)EY=a<0 从而两边平方,注意反转不等号,即可得出原式。

生成函数Permalink

X为一自然数上分布的随机变量,那么: GX(t)=n=0P(X=n)tn 称为这个随机变量的生成函数,也称母函数

注意到本章之中我们只研究有限概率空间,因此这个“级数”实际上只有有限项,从而总是良定义的多项式函数,不必关心其收敛问题。

X为一自然数上分布的随机变量,那么: GX(t)=E(tX)

φ(x)=tx,那么 GX(t)=n=0P(X=n)tn=n=0φ(n)P(X=n)=E(tX)

X,Y为两个自然数上分布的独立随机变量,那么: GX+Y(t)=GX(t)GY(t)

由于X,Y独立,它们的函数也独立,因此: GX+Y(t)=E(tXtY)=E(tX)E(tY)=GX(t)GY(t)

两个自然数上分布的随机变量的分布相同,当且仅当其母函数相同。

不难注意到母函数是由分布唯一确定的。

对自然数上分布的随机变量X,有: GX(r)(1)=E[X(X1)(Xr+1)]

简单计算可证。

由最后一条定理,不难发现,对自然数上分布的随机变量X,有: E(X)=GX(1)V(X)=GX(1)+GX(1)(1GX(1))

这就终结了我们关于有限概率空间的所有讨论,接下来我们将关注无限的概率空间下的问题。

  1. 这种范数实际上称为半范数(seminorm)。 

更新时间: