逻辑斯谛回归与最大熵模型

逻辑斯谛回归模型

逻辑斯谛分布
- X服从逻辑斯谛分布是指X具有下列分布函数和密度函数
  - $F(x)=P(X \le x)=\cfrac{1}{1+e^{-(x-\mu)/\gamma}}$
  - $f(x)=F’(x)=\cfrac{e^{-(x-\mu)/\gamma}}{\gamma(1+e^{-(x-\mu)/\gamma})^2}$
二项罗辑斯谛回归模型
- 是如下的条件概率分布：
  - $P(Y=1 | x)=\cfrac{\exp(w \cdot x + b)}{1+\exp(w \cdot x + b)}$
  - $P(Y=0 | x)=\cfrac{1}{1 + \exp(w \cdot x + b)}$
- 模型特点
  - 一个事件的几率是指该事件发生的概率与不发生概率的比值
  - 则二项罗辑斯谛回归的对数几率函数是：
    - $log\cfrac{P(Y=1|x)}{1-P(Y=1|x)}=w \cdot x$
模型参数估计
- 应用极大似然估计法估计模型参数：
  - 设$P(Y=1 | x)=\pi (x)$， $P(Y=0 | x)=1-\pi (x)$
  - 似然函数为：
    - $\prod\limits^N_{i=1}[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}$
  - 对数似然函数为：
    - $L(w) = \sum^N_{i=1}[y_i(w \cdot x_i) - \log(1+exp(w \cdot x_i))]$
  - 对$L(w)$求最大值，得到$w$的估计值$\hat w$
多项罗辑斯谛回归模型
- 回归模型是：
  - $P(Y=k | x)=\cfrac{\exp(w_k \cdot x)}{1+\sum\limits^{K-1}_{k=1}\exp(w_k \cdot x)}, \quad k = 1,2,…,K-1$
  - $P(Y=K | x)=\cfrac{1}{1 + \sum\limits^{K-1}_{k=1}\exp(w_k \cdot x)}$

最大熵模型

最大熵原理
- 学习概率模型时，在所有可能的概率模型中，熵最大的模型是最好的模型。
- 在满足约束条件的模型集合中选取熵最大的模型
- 设离散随机变量X的概率分布是P(X)，则其熵是：
  - $H(P)=-\sum\limits_xP(x)\log P(x)$
  - 熵满足：$0 \le H(P) \le \log|X|$
最大熵模型
- 假设分类模型是一个条件概率分布$P(Y|X)$，$X \in x \subseteq R^n, Y \in y$，x和y表示输入和输出的集合
- 已知联合概率分布$P(X,Y)$和边缘概率分布$P(X)$的经验分布为
  - $~P(X=x,Y=y)=\cfrac{v(X=x,Y=y)}{N}$
  - $~P(X=x)=\cfrac{v(X=x)}{N}$
  - v表示样本出现频数，N表示训练样本容量
- 用特征函数$f(x,y)$描述x和y之间的某一事实：
  - $f(x,y)=\begin{cases} 1, \quad \text{x与y满足某一事实} \\ 0, \quad 否则 \end{cases}$
- 特征函数$f(X,Y)$关于经验分布$~P(X,Y)$的期望:
  - $E_{~P}(f)=\sum\limits_{x,y}~P(x,y)f(x,y)$
- 特征函数$f(X,Y)$关于模型$P(Y|X)$与经验分布$~P(X)$的期望：
  - $E_{P}(f)=\sum\limits_{x,y}~P(x)P(y|x)f(x,y)$
- 假设$E_{~P}(f)=E_{P}(f)$，并将其作为模型的约束条件
- 模型定义：
  - 假设满足约束条件的模型集合为：
    - $\mathcal{C}={P \in \mathcal{P} | E_{~P}(f_i)=E_{P}(f_i), i=1,2,…,n }$
  - 定义在$P(Y|X)$上的条件熵为：
    - $H(P)=-\sum\limits_x~P(x)P(y|x)\log P(y|x)$
- 最大熵模型的学习
  - 求解该优化问题：
    - $\min\limits_{P \in C} -H(P)=\sum\limits_x~P(x)P(y|x)\log P(y|x) \\ \begin{aligned}s.t. & \quad E_{~P}(f_i)-E_{P}(f_i)=0, \quad i=1,2,…,n \\ & \quad \sum\limits_yP(y|x)=1\end{aligned}$

模型学习的最优化算法

逻辑斯谛回归模型及最大熵模型学习一般采用极大似然估计，或正则化的极大似然估计
逻辑斯谛回归模型及最大熵模型学习可以形式化为无约束最优化问题
求解该最优化问题的算法有改进的迭代尺度法、梯度下降法、拟牛顿法