3.5多维随机变量及分布

文章目录

3.5多维随机变量及分布
3.5.1二维随机变量
3.5.2二维离散型随机变量
3.5.3二维连续型随机变量
3.5.4边际分布
3.5.5条件分布
3.5.6条件概率的链式法则
3.5.7独立性及条件独立性
3.5.8全概率公式
3.5.9 Jensen不等式

有些随机现象需要同时用多个随机变量来描述。例如对地面目标射击，弹着点的位置需要两个坐标(X,Y）才能确定，X,Y都是随机变量，而（X,Y）称为一个二维随机变量或二维随机向量，多维随机向量 $(X_1,X_2,\cdots,X_n)$ 含义依次类推。

3.5.1二维随机变量

1、二维随机变量的定义
设W是一个随机试验，它的样本空间 $\Omega$ ，设 $X_1,X_2,\cdots,X_n$ 是定义在Ω上的n个随机变量，由它们构成的随机向量 $(X_1,X_2,\cdots,X_n)$ ，称为n维随机向量或n维随机变量。当n=2时，即 $(X_1,X_2)$ ，称为二维随机向量或二维随机变量。
2、分布函数的定义
设(X,Y)是二维随机变量，对于任意实数x,y,均存在二元函数 $F(x,y)=p((X\le x)\cap(Y\le y))$ 记作 $p(X\le x,Y\le y)$ ,则将F(x,y)称为二维随机变量(X,Y)的分布函数，或称为随机变量X和Y的联合分布函数。

3.5.2二维离散型随机变量

1、二维离散型随机变量的定义
如果二维随机变量(X,Y)全部可能取到的值是有限对或可列无限多对，则称(X,Y)是离散型随机变量,对应的联合概率分布（或简称为概率分布或分布律）为
$p(X=x_i,Y=y_j )=p_{ij}, i,j=1,2,\cdots$
例：将一枚均匀的硬币抛掷4次，X表示正面向上的次数，Y表示反面朝上次数，求(X,Y)的概率分布。
解: X的所有可能取值为0,1,2,3,4，Y的所有可能取值为0,1,2,3,4, 因为X+Y=4，所以(X,Y)概率非0的数值对为:
二维随机变量（X,Y）的联合概率分布表为：
2、性质
（1）非负性： $p_{ij}\ge 0$
（2）规范性：
$\sum_{i=1}^{\infty}\sum_{j=1}^{\infty}p_{ij}=1$
3、概率分布
二维离散型随机变量(X,Y)的分布函数与概率分布之间有如下关系式：
$F(x,y)=\sum_{x_i<x}\sum_{y_i<y}p_{ij}$

3.5.3二维连续型随机变量

1、定义
设二维随机变量(X,Y)的联合分布函数为F(x,y)，若存在非负可积函数f(x,y)，使得对于任意实数 x,y，都
$F(x,y)=\int_{-\infty}^{x}\int_{-\infty}^{y}f(u,v)dudv$
则称(X,Y)为二维连续型随机变量，函数f (x,y)称为(X,Y) 的联合概率密度函数，简称概率密度或密度函数。

2、密度函数f(x,y)的性质
（1）非负性： $f(x,y)\ge 0$
（2）规范性：
$\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}f(x,y)dxdy=1$
（3）当f(x,y)连续时， $\frac{\partial^2 F(x,y)}{\partial x \partial y}=f(x,y)$
（4）若D是Oxy平面上的任一区域，则随机点(X,Y)落在D内的概率为:
$p((X,Y)\in D)=\iint_{(x,y)\in D}f(x,y)dxdy$
3、两种常见的二维连续型随机变量的分布
（1）均匀分布
定义：设D是平面上的有界区域，其面积为A，若二维随机变量(X,Y)的概率密度为
$f(x,y)=\begin{cases}\frac{1}{A},&(x,y)\in D\\0,&(x,y)\notin D\end{cases}$
则称(X,Y)服从区域D上的均匀分布。
可以验证，均匀分布的密度函数f(x,y) 满足密度函数的两个性质。
（2）正态分布
定义：如果(X,Y)的联合密度函数为

例：若(X,Y)的密度函数为
所以，a=6

D的范围请看下图中阴影部分

由此可得：

3.5.4边际分布

对于多维随机变量，如二维随机变量(X,Y),假设其联合概率分布为F(x,y),我们经常遇到求其中一个随机变量的概率分布的情况。这种定义在子集上的概率分布称为边缘概率分布。
例如，假设有两个离散的随机变量X,Y,且知道P(X,Y),那么我们可以通过下面求和的方法，得到边缘概率P(X):
$P(X=x)=\sum_y P(X=x,Y=y)\tag{3.9}$
对于连续型随机变量（X,Y），我们可以通过联合密度函数f(x,y)来得到边缘密度函数。
$f(x)=\int_{-\infty}^{\infty}f(x,y)dy \tag{3.10}$
$f(y)=\int_{-\infty}^{\infty}f(x,y)dx \tag{3.11}$
边缘概率如何计算呢？我们通过一个实例来说明。假设有两个离散型随机变量X,Y，其联合分布概率如表4-1所示。
表4-1：X与Y的联合分布
如果我们要求P(Y=0)的边缘概率，根据式（3.9）可得：
P(Y=0)=P(X=1,Y=0)+P(X=2,Y=0)=0.05+0.28=0.33

3.5.5条件分布

上一节我们介绍了边缘概率，它是多维随机变量一个子集（或分量）上的概率分布。对于含多个随机变量的事件中，经常遇到求某个事件在其他事件发生的概率，例如，在表4-1的分布中，假设我们要求当Y=0的条件下，求X=1的概率？这种概率叫作条件概率。条件概率如何求？我们先看一般情况。
设有两个随机变量X,Y,我们将把X=x，Y=y发生的条件概率记为P(Y=y|X=x),那么这个条件概率可以通过以下公式计算：
$P(Y=y|X=x)=\frac{P(Y=y,X=x)}{P(X=x)} \tag{3.12}$
条件概率只有在P(X=x)>0时，才有意义，如果P(X=x)=0，即X=x不可能发生，以它为条件就毫无意义。
现在我们来看上面这个例子，根据式（3.12），我们要求的问题就转换为：
$P(X=1|Y=0)=\frac{P(X=1,Y=0)}{P(Y=0)} \tag{3.13}$
其中P(Y=0)是一个边缘概率，其值为：P(X=1,Y=0)+P(X=2,Y=0)=0.05+0.28=0.33
而P(X=1，Y=0)=0.05.故P(X=1|Y=0)=0.05/0.33=5/33
式（3.12）为离散型随机变量的条件概率，对连续型随机变量也有类似公式。假设（X,Y）为二维连续型随机变量，它们的密度函数为f(x,y),关于Y的边缘概率密度函数为f_Y (y),且满足f_Y (y)>0,假设
$f_{X|Y} (x|y)=\frac{f(x,y)}{f_Y (y)}\tag{3.14}$
为在Y=y条件下，关于X的条件密度函数，则
$F_{X|Y}(x|y)=\int_{-\infty}^{x}f_{X|Y}(x|y)dx\tag{3.15}$
称为在Y=y的条件下，关于X的条件分布函数。
同理，可以得到，在X=x的条件下，关于Y的条件密度函数；
$f_{Y|X}(y|x)=\frac{f(x,y)}{f_X(x)}\tag{3.16}$
在X=x的条件下，关于Y的条件分布函数为：
$F_{Y|X}(y|x)=\int_{-\infty}^{y}f_{Y|X}(y|x)dy\tag{3.17}$

3.5.6条件概率的链式法则

条件概率的链式法则，又称为乘法法则，把式（3.12）变形，可得到条件概率的乘法法则：

3.5.7独立性及条件独立性

两个随机变量X,Y,如果它们的概率分布可以表示为两个因子的乘积，且一个因子只含x，另一个因子只含y，那么我们就称这两个随机变量互相独立。这句话可能不好理解，我们换一种方式的来表达。或许更好理解。
如果对 $\forall x\in X,y\in Y,P(X=x,Y=y)=P(X=x)P(Y=y)$ 成立，那么随机变量X,Y互相独立。
在机器学习中，随机变量为互相独立的情况非常普遍，一旦互相独立，联合分布的计算就变得非常简单。
这是不带条件的随机变量的独立性定义，如果两个随机变量带有条件，如P(X,Y|Z),它的独立性如何定义呢？这个与上面的定义类似。具体定义如下：
如果对 $\forall x\in X,y\in Y,z\in Z,P(X=x,Y=y|Z=z)=P(X=x|Z=z)P(Y=y|Z=z)$ 成立
那么随机变量X,Y在给定随机变量Z时是条件独立的。
为便于表达，如果随机变量X,Y互相独立，又可记为 $X\bot Y$ ,如果随机变量X,Y在给定时互相独立，则可记为 $X\bot Y|Z$ 。
以上主要介绍离散型随机变量的独立性和条件独立性，如果是连续型随机变量，我们只要把概率换成随机变量的密度函数即可。
假设X,Y为连续型随机变量，其联合概率密度函数为 $f(x,y),f_x(x),f_y(y)$ 分别表示关于X,Y的边缘概率密度函数，如果 $f(x,y)=f_x(x)f_y(y)$ 成立，则称随机变量X,Y互相独立。

3.5.8全概率公式

前面我们介绍了随机事件的全概率公式，这个公式推广到离散型随机变量，假设离散型随机变量X的分布律为： $p(x_i)= p_i,i=1,2,\cdots,N$
设离散型随机变量Z,它与随机变量X,构成的联合概率为 $p(x_i,z_j)$ ，从而可得
$p(x_i)= \sum_{j=1}^M p(x_i,z_j),i=1,2,\cdots,N;j=1,2,\cdots,M$
这里我们可以把Z看成是一个隐变量！从全概率这个角度来理解隐变量，是视角之一。

3.5.9 Jensen不等式

Jensen不等式（Jensen's inequality）是以丹麦数学家Johan Jensen命名的，它在概率论、机器学习等领域应用广泛。如利用其证明EM算法、KL散度大于等于0等等。
Jensen不等式与凸函数有关，何为凸函数？
1、凸函数的定义：
假设f(x)为定义在n维欧氏空间R^n中某个凸集S上的函数，如对任何实数t（ $0\le t\le 1$ ）及S中任意两点 $x_1,x_2$ ，恒有：
$f(tx_1+(1-t)x_2 )\le tf(x_1 )+(1-t)f(x_2)\tag{3.21}$
则称函数f(x)在S集上为凸函数。
式（3.21）的几何意义如图3-5所示：
图3-5 凸函数任意两点的割线示意图
从上图可知，凸函数任意两点的割线位于函数图形上方，这也是Jensen不等式的两点形式。
2、Jensen不等式
对于任意属于S中数据集 $\{x_i\}$ ,如 $a_i\ge 0$ 且 $\sum_{i=1}^m a_i=1$ ,则利用归纳法可以证明凸函数f(x)满足：
$f(\sum_i^m a_i x_i )\le\sum_i^m a_i f(x_i)$
Jensen不等式就是式（4.10）的一个两点到m个点的一个推广。如果f(x)是凹函数，只需不等式反号即可。
如果把x作为随机变量， $p(x=x_i )=a_i$ 是x的概率分布，Jensen不等式可表示为：
$E[X]=\sum_i^m x_i a_i$
$f(E[X])\le E[f(X)]$
如果函数f(x)为严格凸函数，当且仅当随机变量x是常数时（即 $x_1=x_2=\cdots=x_m$ ），上式不等式取等号，即有：
f(E[X])=E[f(X)]
Jensen不等式可用归纳法证明，这里就不展开说明了。Jensen不等式在证明EM算法时用到。