概率论

样本空间

- *随机实验* 全部可能的结果组成的集合

随机变量

  • 定义在样本空间上的实值函数
  • 通常用无格式与手写体字母区分随机变量与随机变量的取值。例如x表示随机变量本身,$x_1, x_2$表示具体的取值
  • 随机变量是对可能的状态的描述,必须要有对应的概率分布来指定每个状态(即随机变量取值)的可能性

概率分布

  • 描述随机变量每个状态的可能性大小
  • 概率质量函数:离散型随机变量的概率分布
    • 概率质量函数$P$需满足条件:
      1. $P$的定义域是x所有可能状态的集合
      2. $\forall x \in \text{x}, 0\le P(x) \le 1$
      3. $\sum_{i=1}^{\infty}P(x_i)=1$
    • 概率质量函数本身就反映了变量x取某值的概率
  • 概率密度函数:连续型随机变量的概率分布
    • 概率密度函数$P$需满足条件:
      1. $P$的定义域是x所有可能状态的集合
      2. $\forall x \in \text{x}, P(x) \ge 0$
      3. $\int_{i=1}^{\infty}P(x_i)=1$
    • 需对概率密度函数求积分来获得变量取值在某范围的概率
  • 累积分布函数:对任意给定实数$x$,随机变量x小于等于$x$的概率
    • $F(x) = P(\text{x} \le x)$

联合概率分布

  • 多个随机变量的概率分布

边缘概率

  • 已知其联合概率分布的一组变量的子集的概率分布
  • 例如已知离散随机变量x和y及其联合概率分布$P(\text{x,y})$,求$P(\text{x})$:
    • $P(\text{x}=x)=\sum_y P(\text{x}=x, \text{y}=y)$
  • 连续型:
    • $P(\text{x}=x)=\int P(x, y)dy$

条件概率

  • 某个事件在其他给定事件发生时出现的概率
  • 给定 $\text{x}=x$ ,则 $\text{y}=y$ 发生的条件概率记为$P(\text{y}=y | \text{x}=x)$
    • $P(\text{y}=y | \text{x}=x)=\cfrac{P(\text{y}=y , \text{x}=x)}{P(\text{x}=x)}$
    • $P(\text{x}=x)>0$
  • 条件概率的链式法则:任何多维随机变量的联合概率分布,都可以分解成只有一个变量的条件概率相乘的形式
    • $P(x^{(1)},…,x^{(n)})=P(x^{(1)})\prod_{i=2}^nP(x^{(i)}|x^{(1)},…,x^{(i-1)})$

独立性和条件独立性

  • 随机变量间互相不对对方的概率产生影响
  • $\forall x \in \text{x}, y \in \text{y},P(\text{x}=x, \text{y}=y)=P(\text{x}=x)P(\text{y}=y)$
  • $\forall x \in \text{x}, y \in \text{y}, z \in \text{z}, P(\text{x}=x, \text{y}=y | \text{z}=z)=P(\text{x}=x | \text{z}=z)P(\text{y}=y | \text{z}=z)$

期望、方差和协方差

  • 期望:“加权平均”;函数$f(x)$关于某分布$P(\text{x})$的期望:
    • 离散:$\mathbb{E}_{x \sim P}[f(x)] = \sum_xP(x)f(x)$
    • 连续:$\mathbb{E}_{x \sim P}[f(x)] = \int P(x)f(x)dx$
    • 期望是线性的,即:$\mathbb{E}_{x}[\alpha f(x) + \beta g(x)] = \alpha\mathbb{E}_{x}[f(x)] + \beta\mathbb{E}_{x}[g(x)]$
  • 方差:“随机变量的差异程度”:
    • $Var(f(x))=\mathbb{E}[(f(x) - \mathbb{E}[f(x)])^2]$
    • 标准差:方差的平方根
  • 协方差:两变量之间的相关性强度
    • $Cov(f(x),g(y))=\mathbb{E}[(f(x) - \mathbb{E}[f(x)]) (g(y) - \mathbb{E}[g(y)]) ]$
    • 协方差的绝对值很大:变量值变化很大,且同时距各自的均值很远
    • 协方差是正的:两个变量趋势相同
    • 协方差是负的:两个变量趋势相反
    • 为零:两变量相互独立

矩与矩母函数

  • 若$E\left[X^k\right]$存在,$k=1,2,…$,则称其为$X$的$k$阶 原点矩
    • $E\left[X^k\right]=\sum_{x: p(x)>0} x^k p(x)$
  • 若$E{\left[X-E(X)\right]^k}$存在,$k=2,3,…$,则称其为$X$的$k$阶 中心矩
  • 若$E\left[X^kY^l\right]$存在,$k,l=1,2,…$,称之为$X、Y$的$k+l$阶 混合原点矩
  • 若$E{\left[X-E(X)\right]^k\left[Y-E(Y)\right]^l}$存在,$k=2,3,…$,则称其为$X、Y$的$k+l$阶 混合中心矩

常用概率分布

  • Bernoulli分布:单个二值随机变量的分布
    • $\phi \in [0,1]$,$\phi$给出了随机变量x等于1的概率
      • $P(\text{x}=1)=\phi$
      • $P(\text{x}=0)=1-\phi$
      • $P(\text{x}=x)=\phi ^x (1-\phi)^{1-x}$
      • $\mathbb E _\text{x}[\text{x}]=\phi$
      • $\text{Var}(\text{x})=\phi (1-\phi)$
  • Multinoulli分布:具有 k 个不同状态的单个离散型随机变量上的分布
    • Multinoulli分布由向量$\boldsymbol{p} \in [0,1]^{k−1} $参数化,其中每个分量$p_i$表示第$i$个状态的概率
  • 高斯分布(正态分布)
    $$
    \mathcal{N}(x;\mu,\sigma^2) = \sqrt{\cfrac{1}{2\pi\sigma^2}}\text{exp}\left(-\cfrac{1}{2\sigma^2(x-\mu)^2}\right)
    $$
    • 正态分布由两个参数控制,$\mu \in \mathbb{R}$ 和 $\sigma \in (0, \infty)$
    • 参数 $\mu$ 给出了中心峰值的坐标,也是分布的均值:$E[x] = µ$
    • 分布的标准差用 $\sigma$ 表示,方差用 $\sigma^2$表示
  • 泊松分布
    • $P(X=k)=\cfrac{\mathrm{e}^{-\lambda} \lambda^k}{k !}$
    • 单位时间、单位长度、单位面积、单位体积中发生某一事件的次数常可以用泊松分布刻画
    • $\lambda$是单位时间(或单位面积)内随机事件的平均发生率
  • 指数分布
    • $P(x;\lambda) = \lambda\boldsymbol{1}_{x \ge 0}\text{exp}(-\lambda x)$
  • Laplace分布
    • $\text{Laplace}(x;\mu,\gamma)=\cfrac{1}{2\gamma}\text{exp}\left(-\cfrac{|x-\mu|}{\gamma}\right)$
    • 可以看作是两个指数分布“背靠背”在一起
  • Dirac分布和经验分布
    • Dirac分布:概率分布中的所有质量都集中在一个点上
      • $P(x)=\delta(x-\mu)$
    • Dirac分布经常作为经验分布(可理解为“采样”)的一个组成部分出现
      • $\hat{p}(\boldsymbol{x})=\frac{1}{m}\sum_{i=1}^m\delta(\boldsymbol{x}-\boldsymbol{x^{(i)}})$
  • 分布的混合
    • 通过组合一些简单的概率分布来定义新的概率分布

常用函数的有用性质

  • logistic sigmoid函数
    • $\sigma(x)=\cfrac{1}{1+\text{exp}(-x)}$
    • 可以用来产生Bernoulli分布中的参数$\phi$ $(0, \infty)$
  • softplus函数
    • $\zeta (x) = \text{log}(1+\text{exp}(x))$
    • 可以用来产生正态分布的$\sigma$参数
    • 是ReLu函数( $x^+=\text{max}(0,x)$ )的“平滑”形式

贝叶斯规则

  • 已知$P(y|x)$,要计算$P(x|y)$,若知道$P(x)$,则可使用贝叶斯规则
    • $P(x|y)=\cfrac{P(x)P(y|x)}{P(y)}=\cfrac{P(x)P(y|x)}{\sum_xP(y|x)P(x)}$

信息论

使用信息论的一些关键思想来描述概率分布或者量化概率分布之间的相似性。

自信息

  • 定义一个事件$\text{x}=x$的自信息为:
  • $I(x)=-\text{log}P(x)$
    • 底数为e,则单位为奈特;底数为2,则单位为比特
  • 自信息只处理单个的输出

香农熵

  • 对整个概率分布中的不确定性总量进行量化
  • $H(\text{x})=\mathbb{E}_{\text{x} \sim P}[I(x)]=-\mathbb{E}_{\text{x} \sim P}[\text{log}P(x)]$
  • “熵”:越“混乱”越大——越不确定越大

KL散度

  • 衡量对同一随机变量x的两个单独概率分布 $P(x)$和$Q(x)$的差异
  • $D_{KL}(P||Q)=\mathbb{E}_{\text{x} \sim P}[\text{log}P(x)-\text{log}Q(x)]$
  • 分布几乎处处相同时KL散度为0
  • 通常$D_{KL}(P||Q) \ne D_{KL}(Q||P)$

交叉熵:

  • $H(P, Q)=H(P)+D_{KL}(P||Q)$
  • $H(P, Q)=-\mathbb{E}_{\text{x} \sim P} \text{log}Q(x)$