机器学习基础(3)——朴素贝叶斯
朴素贝叶斯法
-
输入空间:$\boldsymbol{x} \subseteq \boldsymbol{R}^n$
-
输出空间:$\mathcal{y}={c_1, c_2, …, c_K}$
-
输入为特征向量$x \in \boldsymbol{x}$,输出为类标记$y \in \mathcal{y}$;X是输入空间上的随机向量,Y是输出空间上的随机向量,$P(X,Y)$是X和Y的联合概率分布
-
训练数据集$T={(x_1, y_1), (x_2, y_2), …, (x_N, y_N)}$由$P(X,Y)$独立同分布产生
-
朴素贝叶斯对条件概率分布作了条件独立性假设:
$$\begin{aligned} & P(X=x | Y=c_k) \\= & P(X^{(1)}=x^{(1)},…, X^{(n)}=x^{(n)} | Y=c_k) \\= & \prod\limits^n_{j=1}P(X^{(j)}=x^{(j)} | Y=c_k)\end{aligned}$$ -
贝叶斯定理:
$$P(Y=c_k | X=x) = \cfrac{P(X=x | Y=c_k)P(Y=c_k)}{\sum_{k}P(X=x | Y=c_k)P(Y=c_k)}$$ -
朴素贝叶斯法公式:
$$P(Y=c_k | X=x) = \cfrac{P(Y=c_k)\prod\limits^n_{j=1}P(X^{(j)}=x^{(j)} | Y=c_k)}{\sum_{k}P(Y=c_k)\prod\limits^n_{j=1}P(X^{(j)}=x^{(j)} | Y=c_k)}$$ -
朴素贝叶斯分类器:
$$y = f(x) = \arg\max\limits_{c_k}\cfrac{P(Y=c_k)\prod\limits^n_{j=1}P(X^{(j)}=x^{(j)} | Y=c_k)}{\sum_{k}P(Y=c_k)\prod\limits^n_{j=1}P(X^{(j)}=x^{(j)} | Y=c_k)}$$- 简化为
$$y = f(x) = \arg\max\limits_{c_k}{P(Y=c_k)\prod\limits^n_{j=1}P(X^{(j)}=x^{(j)} | Y=c_k)}$$
- 简化为
-
后验概率最大化的含义
- 朴素贝叶斯法将实例分到后验概率最大的类中,等价于期望风险最小化。
- 假设0-1损失函数是分类决策函数:
- $L(Y, f(X))=\begin{cases}1, \quad Y\neq f(X) \\ 0, \quad Y = f(X) \end{cases}$
- 期望风险函数为:$R_{exp}(f)=E[L(Y, f(X))]$
- 取条件期望:$R_{exp}(f)=E_X\sum\limits^{K}_{k=1}[L(c_k, f(X))]P(c_k | X)$
- 对其逐个极小化,得到了后验概率最大准则:
$$f(x)=\arg\max\limits_{c_k}P(c_k | X=x)$$