朴素贝叶斯法

  • 输入空间:$\boldsymbol{x} \subseteq \boldsymbol{R}^n$

  • 输出空间:$\mathcal{y}={c_1, c_2, …, c_K}$

  • 输入为特征向量$x \in \boldsymbol{x}$,输出为类标记$y \in \mathcal{y}$;X是输入空间上的随机向量,Y是输出空间上的随机向量,$P(X,Y)$是X和Y的联合概率分布

  • 训练数据集$T={(x_1, y_1), (x_2, y_2), …, (x_N, y_N)}$由$P(X,Y)$独立同分布产生

  • 朴素贝叶斯对条件概率分布作了条件独立性假设
    $$\begin{aligned} & P(X=x | Y=c_k) \\= & P(X^{(1)}=x^{(1)},…, X^{(n)}=x^{(n)} | Y=c_k) \\= & \prod\limits^n_{j=1}P(X^{(j)}=x^{(j)} | Y=c_k)\end{aligned}$$

  • 贝叶斯定理:
    $$P(Y=c_k | X=x) = \cfrac{P(X=x | Y=c_k)P(Y=c_k)}{\sum_{k}P(X=x | Y=c_k)P(Y=c_k)}$$

  • 朴素贝叶斯法公式:
    $$P(Y=c_k | X=x) = \cfrac{P(Y=c_k)\prod\limits^n_{j=1}P(X^{(j)}=x^{(j)} | Y=c_k)}{\sum_{k}P(Y=c_k)\prod\limits^n_{j=1}P(X^{(j)}=x^{(j)} | Y=c_k)}$$

  • 朴素贝叶斯分类器
    $$y = f(x) = \arg\max\limits_{c_k}\cfrac{P(Y=c_k)\prod\limits^n_{j=1}P(X^{(j)}=x^{(j)} | Y=c_k)}{\sum_{k}P(Y=c_k)\prod\limits^n_{j=1}P(X^{(j)}=x^{(j)} | Y=c_k)}$$

    • 简化为
      $$y = f(x) = \arg\max\limits_{c_k}{P(Y=c_k)\prod\limits^n_{j=1}P(X^{(j)}=x^{(j)} | Y=c_k)}$$
  • 后验概率最大化的含义

    • 朴素贝叶斯法将实例分到后验概率最大的类中,等价于期望风险最小化。
    • 假设0-1损失函数是分类决策函数:
      • $L(Y, f(X))=\begin{cases}1, \quad Y\neq f(X) \\ 0, \quad Y = f(X) \end{cases}$
      • 期望风险函数为:$R_{exp}(f)=E[L(Y, f(X))]$
      • 取条件期望:$R_{exp}(f)=E_X\sum\limits^{K}_{k=1}[L(c_k, f(X))]P(c_k | X)$
      • 对其逐个极小化,得到了后验概率最大准则:
        $$f(x)=\arg\max\limits_{c_k}P(c_k | X=x)$$