根据贝叶斯定理,我们能得到后验概率的计算公式:

  其中 $\theta$ 表示模型的参数,$y$ 这里表示的是数据,可以看成包含了特征和类标。后验概率说的是,给定了数据后,尝试去估计对应的模型参数,当然是通过估计参数的概率分布的形式来进行估计。

  那么我们可以通过最大化后验概率来估计参数:

  因为数据确定时 $P(y)$ 就为一个常数了,最大化后验概率的时候就可以将其去掉,然后为了方便可能出现的连乘变成连加的形式,我们会在最大化后验概率的时候套上一个单调的对数函数。

  这里对比一下最大似然估计的式子,可见最大似然估计不考虑参数本身的先验概率,而最大后验概率是有一定的参数概率分布先验。

References

  1. 如何通俗地解释贝叶斯线性回归的基本原理?
  2. A Probabilistic Interpretation of Regularization
  3. Bayes’ Theorem: An Informal Derivation