概率分布
前置知识
欧拉积分
- 第一类欧拉积分(Beta 函数): $\mathrm{B}\left(x, y\right) = \int_0^1 t^{x-1} \left(1-t\right)^{y-1}\;\mathrm{d}t\;\left(x, y \in \left(0, +\infty\right)\right).$
- 第二类欧拉积分(Gamma 函数): $\Gamma\left(x\right) = \int_0^{+\infty} t^{x-1} e^{-t}\;\mathrm{d}t\;\left(x \in \left(0, +\infty\right)\right).$
迭代期望定理
固定 $\boldsymbol{Y}$ 的取值, $\mathbb{E}\left[\boldsymbol{Y}|\boldsymbol{X}\right]$ 是关于 $\boldsymbol{X}$ 的函数,因此是随机变量。固定条件 $\boldsymbol{X}$ ,遍历所有 $\boldsymbol{Y}$ 的取值, $\mathbb{E}_{\boldsymbol{Y}}\left[\boldsymbol{Y}|\boldsymbol{X}\right]$ 即为条件 $\boldsymbol{X}$ 下 $\boldsymbol{Y}$ 的期望,在此基础上遍历所有可能的条件 $\boldsymbol{X}$ ,即得 $Y$ 的全期望(total expectation)。
全方差定理
$\boldsymbol{Y}$ 被条件 $\boldsymbol{X}$ 划分为样本 $\boldsymbol{Y}|\boldsymbol{X}$ 。 $\mathbb{E}\left[\mathrm{var}\left[\boldsymbol{Y}|\boldsymbol{X}\right]\right]$ 衡量了样本内的差异, $\mathrm{var}\left[\mathbb{E}\left[\boldsymbol{Y}|\boldsymbol{X}\right]\right]$ 衡量了各个样本之间的差异。
独热编码和哑编码
对于抛硬币这样的事件,我们可以用 $0$ 和 $1$ 两个数字分别标识硬币不同面朝上的状态,这就是一种编码方案。 对于掷骰子这样的随机变量可能取值有三个及以上的情况,我们可以将随机变量的取值范围扩展到 $\left\{1, 2, 3, 4, 5, 6\right\}$ ,即一维随机变量取值分别对应各个类别,但这种做法会给数学模型泛化带来麻烦。 为了方便地标记这样的互斥状态,常采用独热编码方案( $1$ -of- $K$ scheme, aka., one-hot scheme)。若有 $K$ 种互斥的状态,则对应的随机变量就有 $K$ 维。以掷骰子为例,朝上点数为一就可记作 $\left[1, 0, 0, 0, 0, 0\right]^\mathsf{T}$ 。这样,就可以用向量来标记随机变量,并且向量的每一维仍然保持二值特性。 所谓**哑编码方案(dummy scheme)**是指在独热编码方案的基础上,去掉随机变量中一个冗余的维度(即用全 $0$ 来编码随机变量的一种状态)。例如,按照独热编码方案标记抛硬币可能产生的结果: $\left[1, 0\right]^\mathsf{T}$ 和 $\left[0, 1\right]^\mathsf{T}$ 。若去掉随机变量的的第一维,就得到了 $0$ 和 $1$ ,即我们惯用的二值变量编码方案。
Mahalanobis 距离
$\boldsymbol{X}$ 和 $\boldsymbol{Y}$ 是随机变量, $\boldsymbol{\Sigma}$ 是 $\boldsymbol{X}$ 与 $\boldsymbol{Y}$ 的协方差矩阵。用于计算两个测度无关的独立样本之间的相似程度。
二值离散型随机变量的分布
Bernoulli 分布
二项分布
Beta 分布
Beta 分布是二项分布的共轭分布。
对二项分布参数估计问题,在已知参数设定为 $a, b$ 的 Beta 先验分布, $l, m$ 为先验知识(分别为 $l+m$ 次试验中硬币正面和反面朝上的次数)的情况下,其后验概率为:
多值离散型随机变量的分布
在引入独热编码方案后,我们可以很容易地将二值变量的分布推广到多值变量的分布。
多项分布
Dirichlet 分布
Dirichlet 分布是对 Beta 分布的推广,在形式上与 Beta 分布基本相似。
由于约束条件 $\sum_{l=1}^{K}p_l = 1, p_{l} \ge 0$ 的存在, $p$ 实际上分布在 $K-1$ 维的单纯形 1 中。
连续型随机变量的分布
Gaussian 分布
- 一维情形:
- 多维情形:
单纯形是仿射无关点集的凸包,是一类特殊的多边形。设有仿射无关点集 $\left\{\boldsymbol{v}_0, \boldsymbol{v_1}, \cdots, \boldsymbol{v}_k\right\}$ ,由该点集构成的单纯形定义为: $C = \mathbf{conv}\left\{\boldsymbol{v}_0, \boldsymbol{v_1}, \cdots, \boldsymbol{v}_k\right\} = \left\{\boldsymbol{\theta^\mathsf{T}\boldsymbol{v}}\left|\boldsymbol{\theta} \succeq \boldsymbol{0}, \boldsymbol{1}^\mathsf{T}\boldsymbol{\theta}=1\right.\right\}.$