朴素贝叶斯法

输入空间：$\boldsymbol{x} \subseteq \boldsymbol{R}^n$
输出空间：$\mathcal{y}={c_1, c_2, …, c_K}$
输入为特征向量$x \in \boldsymbol{x}$，输出为类标记$y \in \mathcal{y}$；X是输入空间上的随机向量，Y是输出空间上的随机向量，$P(X,Y)$是X和Y的联合概率分布
训练数据集$T={(x_1, y_1), (x_2, y_2), …, (x_N, y_N)}$由$P(X,Y)$独立同分布产生
朴素贝叶斯对条件概率分布作了条件独立性假设：
$$\begin{aligned} & P(X=x | Y=c_k) \\= & P(X^{(1)}=x^{(1)},…, X^{(n)}=x^{(n)} | Y=c_k) \\= & \prod\limits^n_{j=1}P(X^{(j)}=x^{(j)} | Y=c_k)\end{aligned}$$
贝叶斯定理：
$$P(Y=c_k | X=x) = \cfrac{P(X=x | Y=c_k)P(Y=c_k)}{\sum_{k}P(X=x | Y=c_k)P(Y=c_k)}$$
朴素贝叶斯法公式：
$$P(Y=c_k | X=x) = \cfrac{P(Y=c_k)\prod\limits^n_{j=1}P(X^{(j)}=x^{(j)} | Y=c_k)}{\sum_{k}P(Y=c_k)\prod\limits^n_{j=1}P(X^{(j)}=x^{(j)} | Y=c_k)}$$
朴素贝叶斯分类器：
$$y = f(x) = \arg\max\limits_{c_k}\cfrac{P(Y=c_k)\prod\limits^n_{j=1}P(X^{(j)}=x^{(j)} | Y=c_k)}{\sum_{k}P(Y=c_k)\prod\limits^n_{j=1}P(X^{(j)}=x^{(j)} | Y=c_k)}$$
- 简化为
  $$y = f(x) = \arg\max\limits_{c_k}{P(Y=c_k)\prod\limits^n_{j=1}P(X^{(j)}=x^{(j)} | Y=c_k)}$$
后验概率最大化的含义
- 朴素贝叶斯法将实例分到后验概率最大的类中，等价于期望风险最小化。
- 假设0-1损失函数是分类决策函数：
  - $L(Y, f(X))=\begin{cases}1, \quad Y\neq f(X) \\ 0, \quad Y = f(X) \end{cases}$
  - 期望风险函数为：$R_{exp}(f)=E[L(Y, f(X))]$
  - 取条件期望：$R_{exp}(f)=E_X\sum\limits^{K}_{k=1}[L(c_k, f(X))]P(c_k | X)$
  - 对其逐个极小化，得到了后验概率最大准则：
    $$f(x)=\arg\max\limits_{c_k}P(c_k | X=x)$$