概率——概率论、数理统计、信息论
基础问题——使用数学的方式描述不确定性/可能性
版本1 直接建立一个表,列举所有的事件和它的可能性
于是我们就可以定义一个函数,将事件与它的可能性对应起来
要想这个函数真正的能够定义可能性,我们还需要对函数的定义做一些限制
例如,1 要满足可能性的相对关系,含义为,可能性大的事件对应的数值应该也是大的
还比如 数值也要满足事件的包含关系
注意,这里我们还没有对这些数值的大小没有要求,这也是为什么使用可能性这个词的原因。
总的来说这个版本的定义符合我们的直觉,但还有很大问题,在这里只是对可能性这个概念进行了数学符号化,并没有解决数学化这个问题
数学化的要求除了体系自洽之外,还要求尽可能简约,即符合奥卡姆剃刀原理:如非必要,勿增实体
从上面的例子可以看出,其实事件C是不需要单独定义的,只需要定义好事件a和事件b,那事件c,它这个数值就可以被推导出来。
所以我们在列表格的时候,只需要把那些不可再分的原子事件给列出来,对它们的可能性赋值就够了
版本2
在2.0版本里面,我们可以把所有的事件做一个区分了,只有那些不可再分的原子事件才需要被手动的赋予对应的数值,
右边这个表格可以由左边的表格生成出来
然后我们可以重新定义一个函数,它只规定了原子事件的函数值
这样做,带来了一个额外的好处,那就是我们能够确定可能性的最大值是多少了,那就是我们把所有可能的原子事件可能性的数值加和起来,它的可能性就是最大值
有了最大值,我们可以做出以下的定义
我们可以重新定义上面对应的数值,用归一后的红色的K而不是原来的数值作为概率值,这就有些类似于我们学习过的概率的定义
但上面做法还有问题,这是因为我们假定能够找到所有的原子事件
在离散的情况下,这没问题,但是在连续情况下,事件可以无限细分,我们如果将概率定义为在某个区间上的值,那么当区间变小的时候,对应的概率值可能为0
所以,我们不能再建立在直觉的关于原子事件的思考之上了,以它为基石来建立这个描述可能性的数学体系。
所以以左边的表格作为基石,推理得到右边表格的想法是不合适的。那么有什么解决方法呢?
我们能不能以右边表格作为基石来建立一个体系呢,
版本3.0
在3.0版本中,左边的$S$栏不再是代表一个个事件了,而只是对应连续情况下的一个点,所以它现在对应的什么现实意义我们还不知道
我们这个体系的地基是右边的表格,因此我们想要先根据右边的表格做出定义,再推导出左边,来确定坐标内容的意义
我们先来看右边,
首先严谨地来说,右边的定义域应该写成一个$σ-$域,
这里复习一下域的概念
群:
半裙
环
群,环,域的区别
域 (对除法封闭)
域(Field)在交换环的基础上,还增加了二元运算除法,要求元素(除零以外)可以作除法运算,即每个非零的元素都要有乘法逆元。由此可见,域是一种可以进行加减乘除(除0以外)的代数结构,是数域与四则运算的推广。整数集合,不存在乘法逆元(1/3不是整数),所以整数集合不是域。有理数、实数、复数可以形成域,分别叫有理数域、实数域、复数域。
$\sigma-$域
为什么定义为$\sigma-$域?而不是实数的幂集
要保证全域能量能够归一
这里右边的区间可以理解为事件,对应的数值可以称为概率,我们接下来就是对这个概率进行定义了
我们的第一想法还是根据事件来定义概率,但这又回到了之前的问题,不够简约,
所以为了保证简约,我们不能继续采用原子事件这个思路
那让我们看一看数学家是如何来定义
- 定义域是实数
- 定义下每一个函数值都不能被其他函数所取代
- 事件的概率计算方式,例如事件$[1,2]$是可以通过 $F(2)-F(1)$来计算的
- 左边对应的函数值是可以通过$F$求导得到的
这个$F$定义就是我们所学习地累计概率分布函数这个概念,对应的$f$就是概率密度函数
另外,从累积分布去建立整个概率体系的地基带来了另一个好处,那就是他能够统一连续和离散两种情况,不论连续还是离散,累积分布的意义都是相同的,区别的连续的情况下$f$代表概率密度函数 连续的情况下$f$对应概率质量函数。
另外我们继续观察,左边的$S$栏对应的就是样本空间,而右边$F$域才对应着事件。
概率论的层次
一 概率空间与随机变量 ,重新定义$P$
定义一个概率空间只需要三个东西
- $\Omega$代表样本空间,也就是上面左边表格中的$S$
- $\mathcal{F}$代表的是由样本空间生成的$\sigma-$域。
- $P$规定了$\mathcal{F}$里面所有元素的一个值。可以理解为权重值或者测度,度量。总之就是$\mathcal{F}$中里面每一个元素在$P$里面都会有一个数值与它对应。我们并不是直接定义或者描述这个$P$是什么,而是通过累积分布函数的方式描述的$P$。
只要有了这三个元素,那么就可以把它称作是概率空间了。
但是这个概率空间是很难进行运算的,因为样本空间里的元素不一定是数字,是任意地一种东西。
这时候就需要随机变量的出现了。通过随机变量就能将上面的概率空间等价地变成下面的概率空间。
这样之后,概率空间中样本空间里的元素就变成实数了,对样本空间里的计算就可以变成对实数的计算。
注意,即使是离散情况,也可以将样本空间里的元素对应到实数上面,所以对于离散情况也不需要额外的区分。
从数学角度出发对概率空间的理解
首先 ,任何一个样本空间都可以等价的对应到一个实数空间上,所以我们可以先把概率空间想象成为这样一个实数空间。
只不过,这个实数空间还增加了一个额外的修饰项,也就是$P$,这个$P$包含的信息为实数空间中这么一段或者几段的一个取值。
正常情况下,在纯粹实数空间里,这些线段也时有着对应取值的,只不过我们往往把这个取值看做是这些线段的长度。而且在实数空间里面,默认线段的长度都是平权的,也就是说这个线段不论在空间的什么位置,只要长度相同,它的取值就是相同的。
这里我们是用累积分布函数的方式去重新描述和定义,这个概率空间的长度的概念。
再进一步,由累积分布函数就能得到密度函数。密度函数描述了什么,那就是这个点的权重。
因此,一个概率空间就可以理解为一个被赋予权重的实数空间。
它带来了什么影响呢?举例,数列极限的定义
在实数空间中,数列$a_n$极限收敛于L,直观理解为,随着n增大,$a_n$与$L$之间的距离趋于0。在实数空间中,举例可以看作是两个实数值之间的差。
而在概率空间中,两个点之间的距离,由于有了权重就不能直接相减(因为我们在新的空间中重新定义了长度/举例的概念)。现在就要在新的空间下,根据重新定义的距离的概念,也就是要看在$P$中定义的差值这个权重是多少。要想表示收敛,就不是距离趋于0,而是这个权重趋于0。
因此,$P$是重新定义了实数空间里面距离的数值。
所以这里可以用质量和密度的概念来类比,直观理解。密度就是概率空间中一个点的权重值,质量就是概率空间中一个线段的权重值
二 由$P$对变量和函数的基本描述的影响
我们从二维的角度出发,就能得到一个累积分布函数,也就是下图中左下角的部分
然后,我们可以从 边缘分布和条件分布 对这二维情形进行降维思考
边缘概率密度
定义如下
可以看到它是一个一维概率空间,也就是说它的定义域是 $X_2$ ,本质上也是一个加权的实数轴,只不过在这条轴上的权重$P$是根据二维情况给出的定义。
那原来的二维空间和这个一维空间的定义有什么联系呢?
在$X_2$轴上的每一个点,在平面里其实都对应一条直线。在概率空间里面,这里的每一条直线都是有质量的,把这些质量加起来,对应的数值就是对应中$X_2$轴上的点的值。也就是整个二维概率空间沿着$X_2$轴的方向进行压扁。原来整个二维空间的和为概率1,压缩后对应这个轴上的数值和也是1.
条件概率
首先,可以确定条件概率也是一个一维概率空间。这个一维概率空间中的值也是根据二维空间的情况得到的。
这边确定了一个点$ X_2=a$,也就是图中黄色的线段,也就是我们现在考虑的情形。可以看到它是对应一条直线,每一个$X_1$的取值都对应这条直线上一个点。也就是整个概率空间中,,当$ X_2=a$时对$X_1$的一个观察角度。
这个公式,分母是这条直线的总质量,所以这样就保证了结果是归一的,这就得到了一个新的一维概率空间。
另外一个有趣的点,当给定一个随机变量$x_2$,我们得到的结果是一个概率密度函数。也就是说 给定$x_2$对应函数的值域为密度函数,而不是一个确定的值,这其实也很好理解,整个空间是二维的,这里只在$X_2 = a$的切面观察,得到的结果其实是一个条线,而不是一个点,也就是对应概率密度函数,而不是确定的概率值。
三 研究$P$ 的不同角度
一个更深的理解,概率空间与实数空间的最大区别就是多了上面所描述的$P$,即规定了新的测度。有了新的测度,我们就得从头重新理解整个空间的概念。 对$P$的不同描述,也就产生了不同的研究方向。
P 的无损描述
P 的无损分布就是 前面定义的累积分布函数或者从其推导出来的概率密度函数。累积分布函数可以唯一确定一个概率空间到底是什么样子的。
这对应概率论。
随机变量虽然是函数,但是一般只考虑它的值域,所以也可以理解成一个实数空间。
这里 $g$是一个函数,它的定义域其实是随机变量$X$的值域,它是一个实数空间;同时$g$的值域也是一个实数空间,也就是说$g$只是在两个实数空间上的一个变换。左边和右边都是一个函数,所以当给定一个事件$s$,$Y(s)$代表从事件到实数空间的一个映射,所以说$Y$也是一个随机变量。
举一个栗子
通过这种方式就可以从简单的概率空间得到一个复杂的概率空间
举例子
这个例子中,X的分布是已知的,函数之间的变换关系是确定的,所以就能够得到Y的概率空间
一个更简单的例子
我们先求分布函数,直观的理解如图所示,接下我们要求解这个积分
怎么来求解积分呢,这里我们用到了换元,换元其实也代表一种映射关系,换元之后我们就得到了一个新的坐标系
可以从线性代数理解,上面这种线性变换,只要有两种,旋转,拉伸和压缩
雅克比行列式就是压缩的比例
P 的参数特征
在累积分布函数或概率密度函数纸上,可以去寻求一些参数特征,去描述$P$. 这些参数特征虽然不能代表P里面的全部信息,但也能展示P的不同
最有代表性的参数特征就是期望和方差,以及距的概念。
这对应数理统计
一些常见的分布
从这些可以看出,这几个分布,只需要确定其中的几个参数就能得到对应的分布函数
至于这些参数是什么,有什么含义,这就需要根据不同的函数表达式来确定。
所以,这说明,在分析参数的时候要首先确定分布函数是什么类型。如果没有这个前提,直接去考虑参数特征,几乎是没有意义的。
但从上面这三个分布可以看出来,期望和方差是两个重要的参数,确定期望和方差就能更容易地得到函数对应的具体参数
总结:
所以说,对P的分析和研究也就被分成了两个步骤,先确定分布类型,然后在确定参数类型
怎么确定分布类型呢?这需要从现实问题出发,推断可能的分布,这就是统计学的问题,进行归纳分析。
1 确定参数就可以确定分布函数
我们首先进行抽样,然后计算期望,我们虽然不知道怎么计算期望,但我们能够样本得到一个平均值,
我们这里可以把平均值看做一个随机变量,但这个随机变量对应的概率空间的分布是怎么样的呢?
这里要着重解释一下,这里的$a$和$X$的不同
每一个抽样得到的样本$X$,是不确定的,它是一个随机变量。然后这些随机变量求和再求平均得到的$\bar{X}$也是一个随机变量,因为每次抽样得到的样本是不确定的,所以得到的$\bar{X}$也是不确定的,也就是一个随机变量。
而$a$只代表某一次抽样得到的结果,它是一个具体的数值,同样$\bar{a}$也是一个具体的数值。它们只代表随机变量$X$的一个具体的取值。
然后我们经过推导,得到了这写随机变量和真实的随机变量的关系。
这可以看出,我们总是能够从采样得到的样本$X^{[1]},X^{[2]},\cdots,X^{[n]}$中获得真实分布$X$的一些信息,然后我们可以根据这些采样样本$X^{[1]},X^{[2]},\cdots,X^{[n]}$进行合理的设计到得到一个新的随机变量(例如$\bar{X}$)对真实分布$X$进行估计。
$\bar{X}$是一个好的随机变量,同时我们还可以根据采样样本$X^{[1]},X^{[2]},\cdots,X^{[n]}$设计不同的随机变量例如$Y$,这些我们人为根据采样随机变量得到的都叫做统计量。统计量也是随机变量,统计量和原来的概率空间,样本抽样同时相关的一个随机变量。
统计学一个重要的工作就是研究怎么设计统计量,用来更好评估分布。
但统计量归根结底,还是根据抽样样本归纳总结得到的,所以说可能就无法得到一个准确或者完全确定的结果。
所以注意,这里是评估而不是确定。而统计量的评估结果到底靠不靠谱,这就要看所设计的好不好了。有一些统计量有着坚实的数学基础,它的靠谱程度就更有保证。
让我们回头来看上面提到的$\bar{X_n}$
根据大数定律,可以这么理解,随着抽样的样本数量越多,随机变量$\bar{X_n}$的值越接近期望值$\mu$
根据中心极限定理,原来概率空间的分布有着期望$\mu$和方差$\sigma^2$,不管原来的概率空间的具体分布是怎么样子的,只要$n$足够大,$\bar{X}$这个随机变量它的分布就接近一个正态分布,而且这个正态分布的期望和方差有着下面这样的关系。
这个定律特别有用,因为不论原来的具体分布是怎么样子的,我们总是可以根据采样样本$X^{[1]},X^{[2]},\cdots,X^{[n]}$得到随机变量$\bar{X}$的分布。而这个分布恰好是正态分布。这样我们就能够在不知道原始分布是什么样子的情况下,通过统计量$\bar{X}$的期望和方差去推断概率空间$X$的期望和方差。
这些随机变量有着很好的数理基础,在实际中还有一些基于经验的统计量,例如经济学中的财富水平在幂律分布的情况(幂律分布没有期望值)往往选择中位数进行评估。中位数也是一个随机变量。
2 知道分布的类型
一个概率分布函数可能是任意的,而不是教科书中给定的标准形式,那我们怎么办呢?
其实很简单,我们直接来研究这个函数就很好了。我们总是可以用多项式来拟合任意一个函数
这里$\theta$是一个条件,整个函数就可以看成是一个条件概率了,在$\theta$条件下由$X$决定的函数,
由于样本之间是相互独立的,所以可以写成连乘的形式。这里面每次抽样取值得到的$a$是确定的,只有参数$\theta$是未知的。
这个时候我们可以定义一个函数$L$,这个函数的未知数是$z$,这个函数就是似然函数。
因此,我们现在有了一个较为通用的思路,对于任何一个概率分布,我们都可以用这种拟合加上最大似然估计的方式去进行分析和研究了。
还有另一种思路,还是原来这个分布,可以将它看做成正态分布的密度函数的叠加
这个例子是精心设计的,但我们总可以这么做,使用多个我们早已经熟悉的类似正态分布这样子的子概率分布去叠加而成。
换句话说,这个思路就是将复杂的分布进行拆解,拆分成简单的分布。
上面公式中的$H$其实是我们所任意提出来的,相当于一条辅助线,它甚至可以没有任何实际意义,因为它可能并不存在,只是我们为了拆解方便,使用的一个工具。$H$这个辅助工具又被称为隐变量。
P 的整体特征
在P的期望的基础上,有一个特殊的期望,他就是熵。
这对应信息论
我们来看熵的定义,从数学公式上看它其实就是对期望值进行了一个扩展。
在求期望值的时候,可以得到扩展的结果,当$g(X)$为 $-log p(X)$时候,得到的公式就是熵
这个熵的公式还只是一个离散的情况,但其实我们整个概率的定义是包括连续情况的。
通常离散情况下的熵被称为信息熵,连续情况下的叫做微分熵。我们这还只考虑信息熵
上面说到这个熵只是一个期望值的扩展,那为什么只有这个形式被认作了熵呢?他有什么特殊在哪呢?
我们给出一熵的定义和一个普通形式的期望值
我们先看第一个不同 $log \ p(x)$。右边的公式说明结果是特别依赖于$x$,而左边就不再是依赖于$x$的具体取值了,而是看$x$对应的概率$p(x)$的取值是多少。
这带来了什么呢?我们看下面的图像
这三个分布是不同的,但不在依赖$x$而是$p(x)$那这个图像的移动对结果值就没有影响了,只要它的形状不变,对应的熵就是相同的。也就是说根据$p(x)$计算得到的熵,仅仅和这个概率分布的形状特征了,和他的位置特征没啥关系了。所以,熵是体现了概率分布的形状特征。所以这也就是为什么说是体现了$P$的整体特征。这就是$p(x)$这个计算带来的性质。
我们接下来看log 这个操作,它有什么意义。
当我们计算条件概率的时候是连乘的形式,它给计算带来了一定难度,然后log 操作能够将乘法变成加法。
下面给出一个实例,假设 X,Y相互独立,然后根据推导,我们就能得到这样的结果。
加法运算更简单,也更形象,如下图所示。
当 X和 Y相互独立的情况:
当X 和 Y 不相互独立时:
有了熵的定义,我们可以对一个或者多个随机变量的整体特征进行考虑和分析了,它带来了什么好处呢?
我们拿之前的抽样方式来进行对比,抽样,它是一次一次的,一次只能取到概率空间里面某一个特定的值,只是一个很小的部分。
但如果我们考虑的是一整个系统,比如考虑的是一个容器里面全部的空气分子,如果把分子的能量大小看作是随机变量,这么一群气体分子,几乎是可以占据随机变量这个实数轴上所有可能取值的,这个时候再去看熵,它衡量的的确是随机变量整体特征,它同时也在衡量全体的空气分子组成的系统的整体特征。这个时候随机变量就是一个系统。
在信息论中,衡量一个编码系统是否高效,看的是它的整体性能是否好,考虑系统的整体特征。
所以熵,本质上是随机变量的一个期望,但它通过p(x)和log 的处理,带来了只反应形状和将乘法变成加法的好处,让我们对随机变量整体的分析和研究变得更加方便了。
文档信息
- 本文作者:zuti666
- 本文链接:https://zuti666.github.io/2023/10/13/%E6%A6%82%E7%8E%87%E8%AE%BA/
- 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证)