3.5多维随机变量及分布
有些随机现象需要同时用多个随机变量来描述。例如对地面目标射击,弹着点的位置需要两个坐标(X,Y)才能确定,X,Y都是随机变量,而(X,Y)称为一个二维随机变量或二维随机向量,多维随机向量含义依次类推。
3.5.1二维随机变量
1、二维随机变量的定义
设W是一个随机试验,它的样本空间,设是定义在Ω上的n个随机变量,由它们构成的随机向量,称为n维随机向量或n维随机变量。当n=2时,即,称为二维随机向量或二维随机变量。
2、分布函数的定义
设(X,Y)是二维随机变量,对于任意实数x,y,均存在二元函数记作,则将F(x,y)称为二维随机变量(X,Y)的分布函数,或称为随机变量X和Y的联合分布函数。
3.5.2二维离散型随机变量
1、二维离散型随机变量的定义
如果二维随机变量(X,Y)全部可能取到的值是有限对或可列无限多对,则称(X,Y)是离散型随机变量,对应的联合概率分布(或简称为概率分布或分布律)为
例:将一枚均匀的硬币抛掷4次,X表示正面向上的次数,Y表示反面朝上次数,求(X,Y)的概率分布。
解: X的所有可能取值为0,1,2,3,4,Y的所有可能取值为0,1,2,3,4, 因为X+Y=4,所以(X,Y)概率非0的数值对为:
二维随机变量(X,Y)的联合概率分布表为:
2、性质
(1)非负性:
(2)规范性:
3、概率分布
二维离散型随机变量(X,Y)的分布函数与概率分布之间有如下关系式:
3.5.3二维连续型随机变量
1、定义
设二维随机变量(X,Y)的联合分布函数为F(x,y),若存在非负可积函数f(x,y),使得对于任意实数 x,y,都
则称(X,Y)为二维连续型随机变量,函数f (x,y)称为(X,Y) 的联合概率密度函数,简称概率密度或密度函数。
2、密度函数f(x,y)的性质
(1)非负性:
(2)规范性:
(3)当f(x,y)连续时,
(4)若D是Oxy平面上的任一区域,则随机点(X,Y)落在D内的概率为:
3、两种常见的二维连续型随机变量的分布
(1)均匀分布
定义:设D是平面上的有界区域,其面积为A,若二维随机变量(X,Y)的概率密度为
则称(X,Y)服从区域D上的均匀分布。
可以验证,均匀分布的密度函数f(x,y) 满足密度函数的两个性质。
(2)正态分布
定义:如果(X,Y)的联合密度函数为
例:若(X,Y)的密度函数为
所以,a=6
D的范围请看下图中阴影部分
由此可得:
3.5.4边际分布
对于多维随机变量,如二维随机变量(X,Y),假设其联合概率分布为F(x,y),我们经常遇到求其中一个随机变量的概率分布的情况。这种定义在子集上的概率分布称为边缘概率分布。
例如,假设有两个离散的随机变量X,Y,且知道P(X,Y),那么我们可以通过下面求和的方法,得到边缘概率P(X):
对于连续型随机变量(X,Y),我们可以通过联合密度函数f(x,y)来得到边缘密度函数。
边缘概率如何计算呢?我们通过一个实例来说明。假设有两个离散型随机变量X,Y,其联合分布概率如表4-1所示。
表4-1:X与Y的联合分布
如果我们要求P(Y=0)的边缘概率,根据式(3.9)可得:
P(Y=0)=P(X=1,Y=0)+P(X=2,Y=0)=0.05+0.28=0.33
3.5.5条件分布
上一节我们介绍了边缘概率,它是多维随机变量一个子集(或分量)上的概率分布。对于含多个随机变量的事件中,经常遇到求某个事件在其他事件发生的概率,例如,在表4-1的分布中,假设我们要求当Y=0的条件下,求X=1的概率?这种概率叫作条件概率。条件概率如何求?我们先看一般情况。
设有两个随机变量X,Y,我们将把X=x,Y=y发生的条件概率记为P(Y=y|X=x),那么这个条件概率可以通过以下公式计算:
条件概率只有在P(X=x)>0时,才有意义,如果P(X=x)=0,即X=x不可能发生,以它为条件就毫无意义。
现在我们来看上面这个例子,根据式(3.12),我们要求的问题就转换为:
其中P(Y=0)是一个边缘概率,其值为:P(X=1,Y=0)+P(X=2,Y=0)=0.05+0.28=0.33
而P(X=1,Y=0)=0.05.故P(X=1|Y=0)=0.05/0.33=5/33
式(3.12)为离散型随机变量的条件概率,对连续型随机变量也有类似公式。假设(X,Y)为二维连续型随机变量,它们的密度函数为f(x,y),关于Y的边缘概率密度函数为f_Y (y),且满足f_Y (y)>0,假设
为在Y=y条件下,关于X的条件密度函数,则
称为在Y=y的条件下,关于X的条件分布函数。
同理,可以得到,在X=x的条件下,关于Y的条件密度函数;
在X=x的条件下,关于Y的条件分布函数为:
3.5.6条件概率的链式法则
条件概率的链式法则,又称为乘法法则,把式(3.12)变形,可得到条件概率的乘法法则:
3.5.7独立性及条件独立性
两个随机变量X,Y,如果它们的概率分布可以表示为两个因子的乘积,且一个因子只含x,另一个因子只含y,那么我们就称这两个随机变量互相独立。这句话可能不好理解,我们换一种方式的来表达。或许更好理解。
如果对成立,那么随机变量X,Y互相独立。
在机器学习中,随机变量为互相独立的情况非常普遍,一旦互相独立,联合分布的计算就变得非常简单。
这是不带条件的随机变量的独立性定义,如果两个随机变量带有条件,如P(X,Y|Z),它的独立性如何定义呢?这个与上面的定义类似。具体定义如下:
如果对成立
那么随机变量X,Y在给定随机变量Z时是条件独立的。
为便于表达,如果随机变量X,Y互相独立,又可记为,如果随机变量X,Y在给定时互相独立,则可记为。
以上主要介绍离散型随机变量的独立性和条件独立性,如果是连续型随机变量,我们只要把概率换成随机变量的密度函数即可。
假设X,Y为连续型随机变量,其联合概率密度函数为分别表示关于X,Y的边缘概率密度函数,如果成立,则称随机变量X,Y互相独立。
3.5.8全概率公式
前面我们介绍了随机事件的全概率公式,这个公式推广到离散型随机变量,假设离散型随机变量X的分布律为:
设离散型随机变量Z,它与随机变量X,构成的联合概率为,从而可得
这里我们可以把Z看成是一个隐变量!从全概率这个角度来理解隐变量,是视角之一。
3.5.9 Jensen不等式
Jensen不等式(Jensen's inequality)是以丹麦数学家Johan Jensen命名的,它在概率论、机器学习等领域应用广泛。如利用其证明EM算法、KL散度大于等于0等等。
Jensen不等式与凸函数有关,何为凸函数?
1、凸函数的定义:
假设f(x)为定义在n维欧氏空间R^n中某个凸集S上的函数,如对任何实数t()及S中任意两点,恒有:
则称函数f(x)在S集上为凸函数。
式(3.21)的几何意义如图3-5所示:
图3-5 凸函数任意两点的割线示意图
从上图可知,凸函数任意两点的割线位于函数图形上方, 这也是Jensen不等式的两点形式。
2、Jensen不等式
对于任意属于S中数据集,如且,则利用归纳法可以证明凸函数f(x)满足:
Jensen不等式就是式(4.10)的一个两点到m个点的一个推广。如果f(x)是凹函数,只需不等式反号即可。
如果把x作为随机变量,是x的概率分布,Jensen不等式可表示为:
如果函数f(x)为严格凸函数,当且仅当随机变量x是常数时(即),上式不等式取等号,即有:
f(E[X])=E[f(X)]
Jensen不等式可用归纳法证明,这里就不展开说明了。Jensen不等式在证明EM算法时用到。