假装有摘要

概率论：不确定性声明的数学框架。提供了量化不确定性的方法，也提供了用于导出新的不确定性声明的公理。

为什么使用概率论

不确定性可能的来源：

被建模系统内在的随机性。
不完全观测。确定的系统，但不能观测到所有驱动系统行为的变量。
不完全建模。必须舍弃某些观测信息的模型。

频率派概率：直接与事件发生的频率相联系。
贝叶斯概率：涉及确定性水平。

概率论提供了一套形式化的规则，可以在给定一些命题的似然后，计算其他命题为真的似然。

随机变量

$x_1$和$x_2$:随机变量$\mathrm{x}$可能的取值。

向量：随机变量$\boldsymbol {\mathrm{x}}$，可能取值$\boldsymbol x$

随机变量可以是离散的或连续的

概率分布

概率分布：用来描述随机变量或一簇随机变量在每一个可能取到的状态的可能性大小。

离散型变量和概率质量函数：

概率质量函数(PMF)：表示离散型变量的分布。$P(\mathrm{x}=x)$

表示随机变量遵循的分布：$\mathbf{x} \sim P(\mathbf{x})$

联合概率分布：多个变量的概率分布。$P(\mathrm{x}=x, \mathrm{y}=y)$，简写为$P(x, y)$

PMF满足条件：
- P 的定义域必须是 x 所有可能状态的集合。
- $\forall x \in \mathrm{x}, 0 \leq P(x) \leq 1$
- $\sum_{x \in \mathrm{x}} P(x)=1$（归一化）
均匀分布：$P\left(\mathrm{x}=x_{i}\right)=\frac{1}{k}$
连续型变量和概率密度函数：

概率密度函数：PDF

条件：
- p 的定义域必须是 x 所有可能状态的集合。
- $\forall x \in \mathrm{x}, p(x) \geq 0 .$ （不要求 $p(x) \leq 1$）
- $\int p(x) d x=1$
给出了面积为$\delta \boldsymbol{x}$的无限小区域内的概率为$p(x) \delta x$

概率由概率密度函数积分得到。

均匀分布：$u(x ; a, b)$，$x$为自变量，$a$和$b$为参数。

$u(x ; a, b)=\left{\begin{array}{ll}0 & x \notin[a, b] \\ \frac{1}{b-a} & x \in[a, b]\end{array}\right.$

通常用$\mathrm{x} \sim U(a, b)$表示。

边缘概率

边缘概率分布：知道一组变量的联合概率分布，想要了解其中一个子集给概率分布。

对于离散型随机变量：

$\forall x \in \mathrm{x}, P(\mathrm{x}=x)=\sum P(\mathrm{x}=x, \mathrm{y}=y)$

对于连续型随机变量：
$p(x)=\int p(x, y) d y$

条件概率及其链式法则

条件概率：

$P(\mathrm{y}=y | \mathrm{x}=x)=\frac{P(\mathrm{y}=y, \mathrm{x}=x)}{P(\mathrm{x}=x)}$

条件概率只在$P(\mathrm{x}=x)>0$时有定义。

链式法则：
$P\left(\mathrm{x}^{(1)}, \ldots, \mathrm{x}^{(n)}\right)=P\left(\mathrm{x}^{(1)}\right) \Pi _ {i=2}^{n} P\left(\mathrm{x}^{(i)} | \mathrm{x}^{(1)}, \ldots, \mathrm{x}^{(i-1)} \right)$
例：

$P(\mathrm{a}, \mathrm{b}, \mathrm{c})=P(\mathrm{a} | \mathrm{b}, \mathrm{c}) P(\mathrm{b} | \mathrm{c}) P(\mathrm{c})$

独立性和条件独立性

相互独立$\mathrm x \perp \mathrm y$：概率分布可以表示成两个因子的乘积，因子分别只包含 x 和 y。

$\forall x \in \mathrm{x}, y \in \mathrm{y}, p(\mathrm{x}=x, \mathrm{y}=y)=p(\mathrm{x}=x) p(\mathrm{y}=y)$

条件独立$\mathrm x \perp \mathrm y | \mathrm z$：关于 x 和 y 的条件概率分布对于 z 的每一个值都可以写成乘积的形式。

$\forall x \in \mathrm{x}, y \in \mathrm{y}, z \in \mathrm{z}, p(\mathrm{x}=x, \mathrm{y}=y | \mathrm{z}=z)=p(\mathrm{x}=x | \mathrm{z}=z) p(\mathrm{y}=y | \mathrm{z}=z)$

期望、方差和协方差

期望（期望值）：平均值

离散型：

$\mathbb{E}_{x \sim P}[f(x)]=\sum_{x} P(x) f(x)$

连续性：
$\mathbb{E} _ {x \sim p}[f(x)]=\int p(x) f(x) d x$

线性：

$\mathbb{E} _ {\mathrm{x}}[\alpha f(x)+\beta g(x)]=\alpha \mathbb{E} _ {\mathrm{x}}[f(x)] + \beta \mathbb{E} _ {\mathrm{x}}[g(x)]$

方差：对$x$依据他的概率分布进行采样时，函数值的差异大小。

$\operatorname{Var}(f(x))=\mathbb{E}\left[(f(x)-\mathbb{E}[f(x)])^{2}\right]$

标准差：方差的平方根

协方差：两个变量线性相关强度及这些变量的尺度

$\operatorname{Cov}(f(x), g(y))=\mathbb{E}[(f(x)-\mathbb{E}[f(x)])(g(y)-\mathbb{E}[g(y)])]$

绝对值大：变量值变化很大，且距离各自的均值远。

协方差为正：两变量倾向于同时取得较大值。

相关系数：只衡量变量的相关性而不受尺度大小影响。

独立性比零协方差要求更强：两个变量相互依赖但协方差为零：$y=sx$

协方差矩阵：方阵，且$\operatorname{Cov}(\mathbf{x}) {i, j}=\operatorname{Cov}\left(\mathbf{x} {i}, \mathbf{x} _ {j}\right)$，其对角元素为方差。

常用概率分布

Bernoulli 分布（二点分布）：单个二值随机变量的分布，ϕ 给出了随机变量等于 1 的概率。

性质：

$\begin{array}{c} P(\mathrm{x}=1)=\phi \\\\ P(\mathrm{x}=0)=1-\phi \\\\ P(\mathrm{x}=x)=\phi^{x}(1-\phi)^{1-x} \\\\ \mathbb{E} _ {\mathrm{x}}[\mathrm{x}]=\phi \\\\ \operatorname{Var} _ {\mathrm{x}}(\mathrm{x})=\phi(1-\phi) \end{array}$

Multinoulli 分布(多项式分布)：在具有 k 个不同状态的单个离散型随机变量上的分布（k为有限值）。

由向量$\boldsymbol{p} \in[0,1]^{k-1}$参数化，$ p_i$ 表示第$i$个状态的概率。第$k$个状态的概率为$1-1^{\top} p$.

表示对象分类的分布。

高斯分布（正态分布）：

$\mathcal{N}\left(x ; \mu, \sigma^{2}\right)=\sqrt{\frac{1}{2 \pi \sigma^{2}}} \exp \left(-\frac{1}{2 \sigma^{2}}(x-\mu)^{2}\right)$

其中$\mu$为中心峰值坐标，同时$\mathbb{E}[\mathbf{x}]=\mu$，$\sigma$为标准差。

控制精度：方差的倒数

$\mathcal{N}\left(x ; \mu, \beta^{-1}\right)=\sqrt{\frac{\beta}{2 \pi}} \exp \left(-\frac{1}{2} \beta(x-\mu)^{2}\right)$

采用正态分布的原因：

中心极限定理：很多独立随机变量的和近似服从正态分布
方差相同的所有可能的概率分布中，正态分布在实数上具有最大的不确定性。（先验知识量最少的分布）

多维正态分布：

$\mathcal{N}(x, \mu, \Sigma)=\sqrt{\frac{1}{(2 \pi)^{n} \operatorname{det}(\Sigma)}} \exp \left(-\frac{1}{2}(x-\mu)^{\top} \Sigma^{-1}(x-\mu)\right)$

其中$\boldsymbol \mu$表示分布的均值，为向量。$\Sigma$为分布的协方差矩阵（正定对称矩阵）

用精度矩阵$\boldsymbol \beta$代替$\Sigma^{-1}$：

$\mathcal{N}\left(\boldsymbol{x} ; \boldsymbol{\mu}, \boldsymbol{\beta}^{-1}\right)=\sqrt{\frac{\operatorname{det}(\boldsymbol{\beta})}{(2 \pi)^{n}}} \exp \left(-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^{\top} \boldsymbol{\beta}(\boldsymbol{x}-\boldsymbol{\mu})\right)$

指数分布：可以在$x=0$处取得边界点。

$p(x ; \lambda)=\lambda \mathbf{1} _ {x \geq 0} \exp (-\lambda x)$

指示函数$\mathbf{1} _ {x \geq 0}$：使得当 x 取负值时的概率为零。

Laplace 分布：在任意一点$\mu$处蛇直概率质量峰值。

$\text { Laplace }(x ; \mu, \gamma)=\frac{1}{2 \gamma} \exp \left(-\frac{|x-\mu|}{\gamma}\right)$

Dirac分布：

$p(x)=\delta(x-\mu)$

其中delta函数：在除了0以外的所有点的值都为0，但积分为1.

经验分布：

连续型随机变量：

$\hat{p}(x)=\frac{1}{m} \sum _ {i=1}^{m} \delta\left(x-x^{(i)}\right)$

离散型随机变量： Multinoulli 分布，对于每一个可能的输入，其概率可以简单地设为在训练集上那个输入值的经验频率。

关于经验分布：

从这个训练集上得到的经验分布指明了我们采样来源的分布。
是训练数据的似然最大的概率密度函数。

混合分布：通过简单的概率分布定义新的概率分布。

样本是由哪个组件分布产生的取决于从一个 Multinoulli 分布中采样的结果：

$P(\mathrm{x})=\sum _ {i} P(\mathrm{c}=i) P(\mathrm{x} | \mathrm{c}=i)$

经验分布即为Dirac分布为组件的混合分布。

潜变量：不能直接观测到的随机变量，c。

高斯混合模型：组件$p(\mathbf{x} | \mathbf{c}=i)$为高斯分布，每个组件有各自的参数（均值、协方差矩阵、先验概率）。

先验概率：$\alpha_{i}=P(\mathrm{c}=i)$，观测到x之前传递给模型。

后验概率：$P(c | \boldsymbol x)$，观测到x后计算。

任何平滑的概率密度都可以用具有足够多组件的高斯混合模型以任意精度逼近。

最左组件：各项相同的协方差矩阵：每个方向方差相同。

中间组件：对角协方差矩阵：可以沿每个轴的对齐方向单独控制方差。

最右组件：满秩协方差矩阵：沿任意方向单独控制方差。

常用函数的有用性质

logistic sigmoid函数：范围是(0,1)，通常用来产生Bernoulli分布中的参数$\phi$。

$\sigma(x)=\frac{1}{1+\exp (-x)}$

sigmoid函数在变量绝对值很大时会出现饱和现象，函数很平，对输入的微小改变不敏感。

softplus函数：范围是$(0, \infty)$，用来产生正态分布的$\beta$和$\sigma$参数。

$\zeta(x)=\log (1+\exp (x))$

一些性质QAQ：

$\begin{aligned} &\sigma(x)=\frac{\exp (x)}{\exp (x)+\exp (0)}\\\\ &\frac{d}{d x} \sigma(x)=\sigma(x)(1-\sigma(x))\\\\ &\begin{aligned} 1-\sigma(x) &=\sigma(-x) \\\\ \log \sigma(x) &=-\zeta(-x) \\\\ \frac{d}{d x} \zeta(x) &=\sigma(x) \end{aligned}\\\\ &\forall x \in(0,1), \sigma^{-1}(x)=\log \left(\frac{x}{1-x}\right)\\\\ &\forall x>0, \zeta^{-1}(x)=\log (\exp (x)-1)\\\\ &\zeta(x)=\int _ {-\infty}^{x} \sigma(y) d y\\\\ &\zeta(x)-\zeta(-x)=x \end{aligned}$

正部函数：$x^{+}=\max {0, x}$

正部函数平滑版：$\zeta(x)$

负部函数：$x^{-}=\max {0,-x}$

负部函数平滑版：$\zeta(-x)$

$x^{+}-x^{-}=x$，因此$\zeta(x)-\zeta(-x)=x$

贝叶斯规则

$P(\mathrm{x} | \mathrm{y})=\frac{P(\mathrm{x}) P(\mathrm{y} | \mathrm{x})}{P(\mathrm{y})}$

其中$P(\mathrm{y})=\sum _ {x} P(\mathrm{y} | x) P(x)$

连续型变量的细节

测度论：是提供了一些集合的特征使得我们在计算概率时不会遇到悖论。

零测度：一种严格的方式来描述那些非常微小的点集。零测度集在我们的度量空间中不占有任何的体积，如二维空间的直线。

信息论

信息论：是对一个信号包含信息的多少进行量化。在机器学习中，也可以把信息论应用于连续型变量。

量化信息发生：

非常可能发生的事件信息量比较少，确保能够发生的事件没有信息量。
较不可能发生的事件具有更高的信息量。
独立事件应具有增量的信息。

例如，投掷的硬币两次正面朝上传递的信息量，应该是投掷一次硬币正面朝上的信息量的两倍。

自信息：

$I(x)=-\log P(x)$

本书中，单位为奈特：一奈特是以$\frac{1}{e}$的概率观测到一个事件时获得的信息量.

香农熵：对整个概率分布中的不确定性总量进行量化

$H(\mathrm{x})=\mathbb{E} _ {x \sim P}[I(x)]=-\mathbb{E} _ {x \sim P}[\log P(x)]$

当x连续，香农熵被称为微分熵。

接近确定性的分布熵较低，接近均匀分布的概率分布的熵高。

KL散度：对于同一个x的两个单独的概率分布的差异：

$D_{\mathrm{KL}}(P \| Q)=\mathbb{E} _ {\mathrm{x} \sim P}\left[\log \frac{P(x)}{Q(x)}\right]=\mathbb{E} _ {x \sim P}[\log P(x)-\log Q(x)]$

离散型变量：KL 散度衡量的是，当使用使得Q产生的消息的长度最小的编码，发送包含P产生的符号的消息时，所需要的额外信息量。

KL散度非负。

KL 散度为 0 当且仅当P和Q在离散型变量的情况下是相同的分布，或者在连续型变量的情况下 ‘‘几乎处处’’ 相同。

KL散度是不对称的：

左图：近似分布 q 在真实分布 p 放置高概率的所有地方都放置高概率

右图：近似分布 q 在真实分布 p 放置低概率的所有地方都放置低概率

交叉熵：

$H(P, Q)=H(P)+D _ {\mathrm{KL}}(P \| Q)$ $H(P, Q)=-\mathbb{E} _ {x \sim P} \log Q(x)$

针对 Q 最小化交叉熵等价于最小化 KL 散度.

0log0=0

结构化概率模型

机器学习中算法设计非常多随机变量上的概率分布，但设计的直接相互作用很少，因此将概率分布分解成许多因子的乘积形式。

每个因子使用的参数数目是变量数目的指数倍。因此如果找到使每个因子分布具有更少变量的分解方法，就能降低表示联合分布的成本。

结构化概率模型（图模型）：有向或无向。每个节点对应一个随机变量，边表示概率分布可以表示为两个随机变量之间的直接作用。

有向：条件概率分布表示分解。对于每个随机变量$xi$，都包含一个影响因子（父节点）$P a{\mathcal{G}}\left(\mathrm{x}_ {i}\right)$：

$p(\mathbf{x})=\prod _ {i} p\left(\mathbf{x} _ {i} | P a _ {\mathcal{G}}\left(\mathbf{x} _ {i}\right)\right)$

$p(a,b,c,d,e)=p(a) p(b | a) p(c | a, b) p(d | b) p(e | c)$

无向：将分解表示成一组函数，每个团$\mathcal{C}^{(i)}$都伴随一个因子$\phi^{(i)}\left(\mathcal{C}^{(i)}\right)$

随机变量的联合概率与因子的乘积成比例，因此用Z归一化。Z为$\phi$函数乘积的所有状态的和或积分。

$p(\mathbf{x})=\frac{1}{Z} \prod _ {i} \phi^{(i)}\left(\mathcal{C}^{(i)}\right)$

$p(a, b, c, d, e)=\frac{1}{Z} \phi^{(\mathbf{1})}(a, b,c) \phi^{(2)}(b, d) \phi^{(3)}(c, e)$