贝叶斯分类器(2)贝叶斯估计

一、最大似然估计、最大后验估计、贝叶斯估计的对比

1.1 贝叶斯公式

这三种方法都和贝叶斯公式有关,所以我们先来了解下贝叶斯公式:

\[ p(\theta \mid X)=\frac{p(X \mid \theta) p(\theta)}{p(X)} \] 每一项的表示如下: \[ \text { posterior }=\frac{\text { likehood } * \text { prior }}{\text { evidence }} \] + posterior: 通过样本X得到参数 \(\theta\) 的概率, 也就是后验概率。 + likehood: 通过参数 \(\theta\) 得到样本X的概率, 似然函数, 通常就是我们的数据集的表现。 + prior: 参数 \(\theta\) 的先验概率, 一般是根据人的先验知识来得出的。

1.2 极大似然估计 (MLE)

极大似然估计的核心思想是: 认为当前发生的事件是概率最大的事件。因此就可以给定的数据集, 使得该数据集发生的概率最大来求得模型中的参数。似然函数如下: \[ p(X \mid \theta)=\prod_{x 1}^{x n} p(x i \mid \theta) \] 为了便于计算, 我们对似然函数两边取对数, 生成新的对数似然函数(因为对数函数是单调增函数, 因此求似然函数最大化就可 以转换成对数似然函数最大化): \[ p(X \mid \theta)=\prod_{x 1}^{x n} p(x i \mid \theta)=\sum_{x 1}^{x n} \log p(x i \mid \theta) \] 求对数似然函数最大化, 可以通过导数为 0 来求解。 极大似然估计只关注当前的样本, 也就是只关注当前发生的事情, 不考虑事情的先验情况。由于计算简单, 而且不需要关注先验 知识, 因此在机器学习中的应用非常广, 最常见的就是逻辑回归。

1.3 最大后验估计 (MAP)

和最大似然估计不同的是, 最大后验估计中引入了先验概率(先验分布属于贝叶斯学派引入的, 像L1, L2正则化就是对参数引入 了拉普拉斯先验分布和高斯先验分布), 而且最大后验估计要求的是 \(p(\theta \mid X)\)

最大后验估计可以写成下面的形式: \[ \operatorname{argmaxp}(\theta \mid X)=\operatorname{argmax} \frac{p(X \mid \theta) p(\theta)}{p(X)}=\operatorname{argmax}\left(\prod_{x 1}^{x n} p(x i \mid \theta)\right) p(\theta) \] 在求最大后验概率时, 可以忽略分母 \(p(x)\), 因为该值不影响对 \(\theta\) 的估计。同样为了便于计算, 对两边取对数, 后验概率最大化就变成了: \[ \operatorname{argmax}\left(\sum_{x 1}^{x n} \operatorname{logp}(x i \mid \theta)+\log p(\theta)\right) \] 最大后验估计不只是关注当前的样本的情况,还关注已经发生过的先验知识。在朴素贝叶斯中会有最大后验概率的应用,但并没有用上最大后验估计来求参数(因为朴素贝叶斯中的θ其实就是分类的类别)。

最大后验估计和最大似然估计的区别:最大后验估计允许我们把先验知识加入到估计模型中,这在样本很少的时候是很有用的(因此朴素贝叶斯在较少的样本下就能有很好的表现),因为样本很少的时候我们的观测结果很可能出现偏差,此时先验知识会把估计的结果“拉”向先验,实际的预估结果将会在先验结果的两侧形成一个顶峰。通过调节先验分布的参数,比如beta分布的α,β,我们还可以调节把估计的结果“拉”向先验的幅度,α,β越大,这个顶峰越尖锐。这样的参数,我们叫做预估模型的“超参数”。