常见的几种贝叶斯决策论对比——贝叶斯算法的决策理论

/ Machine Learning / 没有评论 / 293浏览

贝叶斯决策理论

如果想了解贝叶斯算法,请查看贝叶斯(Bayes)与朴素贝叶斯——机器学习经典分类算法

假设模式分类的决策可由概率形式描述,并假设问题的概率结构已知。

规定以下记号

那么,已知样本 $x$ ,其属于类别 $\omega_i$ 的后验概率 $P(\omega_{i}| x)$(posterior)就可以用贝叶斯公式来描述

$$ P(\omega_{i}|x)=\frac{p(x|\omega_{i})P(\omega_{i})}{p(x)}=\frac{p(x|\omega_{i})P(\omega_{i})}{\sum_{j=1}^{c}p(x|\omega_{j})P(\omega_{j})} $$

分母被称为证据因子 (evidence)
后验概率当然也满足和为1,$\sum_{j=1}^cP(\omega_j|\textbf x)=1$。

最大后验概率决策

英文名:Maximum a posteriori decision

当条件概率密度和先验概率已知时,可用最大后验概率决策,将样本的类别判为后验概率最大的那一类。

决策规则为:

$$\underset{i}{\mathrm{argmax}} P(\omega_{i}|x)$$

如果样本 $x$ 属于类别 $\omega_i$ 的后验概率 $P(\omega_{i}| x)$ 大于其它任一类别的后验概率

$P(\omega_{j}|x)$, $j \in${1,...,c} $\setminus$ {i},则将该样本分类为类别 $\omega_{i}$。

最小错误率决策

英文名:Minimum error rate decision

从平均错误率(平均误差概率) $P(error)$ 最小的角度出发,讨论模型如何来对样本的类别进行决策。

平均错误率的表达式为

$$ P(error)=\int p(error,\textbf x)\text d\textbf x = \int P(error|\textbf x)p(\textbf x)\text d\textbf x $$

如果对于每个样本 $x$ ,保证 $P(error|x)$ 尽可能小,那么平均错误率就可以最小。

$P(error|x)$ 的表达式为

$$P(error|\textbf x)=1-P(\omega_i|\textbf x)$$

从这个表达式可以知道,最小错误率决策等价于最大后验概率决策

期望风险最小化决策

如果想了解风险评估,请查看损失函数与风险评估详细介绍——统计机器学习模型评价

条件风险

损失函数为 $L(y,\alpha(x))$,记为 $\lambda_{ij}$,则条件风险为

$$ R(\alpha_i|x)=\sum_{j=1}^{c}\lambda_{ij}P(\omega_{j}|x) $$

则期望风险为

$$R_{exp}(\alpha)=E [L(y,\alpha(x)) ]= \int_{X \times Y} L(y,\alpha(x))P(y|x)p(x)dxdy = \int R(\alpha(x) | x) p(x)dx$$

与错误率的关系

为了看得清楚一点,对比一下上面那个平均错误率的式子

$$R_{exp}(\alpha)=\int R(\alpha(x)|x)p(x)dx$$

$$P(error)= \int P(error|x)p(x)dx$$

显然,风险在这里起到的作用和错误率在之前起到的作用相同

因此风险是错误率的一个替代品,一种推广

期望风险最小化

类似之前的分析,选择对于每个样本都保证条件风险尽可能小的分类规则 $α(x)$,将使期望风险最小化。

由此可得,最小风险决策的决策规则为:

$$ \underset{i}{\mathrm{argmin}}R(\alpha_{i}|x) $$

如果将损失取成 0-1 损失,即当 $j \ne i$ 时 $λ_{ij}=1$ ,可以推导出条件风险为

$$ R(\alpha_{i}|x)=\sum_{j=1}^{c}\lambda_{ij}P(\omega_{j}|x)=\sum_{j \ne i}P(\omega_{j}|x)=1-P(\omega_{i}|x) $$

显然这个形式和最小错误率决策的式子一模一样。

因此,在使用 0-1 损失的时候,最小风险决策退化为最小错误率决策。