贝叶斯(Bayes)与朴素贝叶斯——机器学习经典分类算法

/ Machine Learning / 没有评论 / 274浏览

贝叶斯算法

贝叶斯:Thomas Bayes, 英国数学家

贝叶斯方法源于他生前为解决一个“逆概率”问题写的一篇文章

正向概率

假设袋子里面有 N 个白球,M 个黑球,那么从袋子中摸出白球(黑球)的概率就叫做正向概率

逆向概率

假设事先并不知道白球与黑球的比例,然后摸出 n 个球,观察它们的颜色,然后对袋子的中的白球和黑球的比例作出预测

即事先并不知道事件的分布,通过观察,预测其分布

贝叶斯公式

$$P(c|w) = \frac{P(c)P(w|c)}{P(w)}$$

模型比较理论

应用实例

拼写错误纠正

w 表示书写的错误词,c 表示可能的正确词,

$p(w|c)$ 可以通过编辑距离求得

因为是比较 $p(c|w)$,取结果最大者为正确结果,所以只需计算分子即可,因为分母都相同,不需要计算

垃圾邮件过滤

w 表示邮件里面的词,c 表示类别(是否为垃圾邮件)

$p(w|c)$ 可根据已知垃圾邮件中包含词 w 的概率求得

朴素贝叶斯

在上述垃圾邮件的例子中 w 由 $w_1, w_2, ...w_n$ 组成,那么

$$p(w|c) = p(w_1|c)p(w_2|w1,c),,,p(w_n|w_{n-1},w_{n-2},...,w_1, c)$$

在贝叶斯的基础上,假设特征之间是相互独立的, 就转化为了朴素贝叶斯,那么

$$p(w|c) = p(w_1|c)p(w_2|c),,,p(w_n|c)$$

未完待续