根据贝叶斯定理,我们能得到后验概率的计算公式:
\[\begin{aligned} P(\theta | y) &=\frac{P(y | \theta) P(\theta)}{P(y)} \\ \text { posterior } &=\frac{\text { likelihood } \cdot \text { prior }}{\text { evidence }} \end{aligned}\]其中 $\theta$ 表示模型的参数,$y$ 这里表示的是数据,可以看成包含了特征和类标。后验概率说的是,给定了数据后,尝试去估计对应的模型参数,当然是通过估计参数的概率分布的形式来进行估计。
那么我们可以通过最大化后验概率来估计参数:
\[\begin{aligned} \hat{\theta}_{\mathbf{M A P}} &=\arg \max _{\theta} P(\theta | y) \\ &=\arg \max _{\theta} \frac{P(y | \theta) P(\theta)}{P(y)} \\ &=\arg \max _{\theta} P(y | \theta) P(\theta) \\ &=\arg \max _{\theta} \log (P(y | \theta) P(\theta)) \\ &=\arg \max _{\theta} \log P(y | \theta)+\log P(\theta) \end{aligned}\]因为数据确定时 $P(y)$ 就为一个常数了,最大化后验概率的时候就可以将其去掉,然后为了方便可能出现的连乘变成连加的形式,我们会在最大化后验概率的时候套上一个单调的对数函数。
这里对比一下最大似然估计的式子,可见最大似然估计不考虑参数本身的先验概率,而最大后验概率是有一定的参数概率分布先验。
\[\hat{\theta}_{\mathrm{MLE}}=\arg \max _{\theta} \log P(y | \theta)\]