唐山做企业网站,实体门店管理系统,一个做问卷调查的网站,免费图片素材高清目录
一、最大似然估计#xff08;MLE#xff09;
二、最大后验估计#xff08;MAP#xff09;
三、MLE 和 MAP 的本质区别
四、当先验是均匀分布时#xff0c;MLE 和 MAP 等价
五、总结 本文理论参考王木头的视频#xff1a;
贝叶斯解释“L1和L2正则化”#xff…目录
一、最大似然估计MLE
二、最大后验估计MAP
三、MLE 和 MAP 的本质区别
四、当先验是均匀分布时MLE 和 MAP 等价
五、总结 本文理论参考王木头的视频
贝叶斯解释“L1和L2正则化”本质上是最大后验估计。如何深入理解贝叶斯公式_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1fR4y177jP/?spm_id_from333.999.0.0vd_sourceecbdfcacb078d0e3626e61248866cdc7
一、最大似然估计MLE
先读文章里面有最大似然估计的例子和分析。
【王木头·从感知机到神经网络】-CSDN博客https://blog.csdn.net/m0_56997192/article/details/142876334?spm1001.2014.3001.5502在最大似然估计中有两个不严谨的地方
1、在上文抛硬币的例子中已有结果求某先验 的概率 在计算时我们把 假设为了 实际上但我们最大似然确认为他们相等了我们想要求的是已确定某个结果哪个先验的情况下概率最大但我们实际求的是某个先验时发生事件的概率的最大值
即目的是求
但实际求的是 被称为似然值或似然函数记为
似然函数为
最大似然估计为
想到这我似乎想到了”似然“两个字的起名原因我们要解决问题就要求出但无法直接求出所以我们选用了一个与 “ 相似 ” 的 所以叫做似然值“ 相似 ”的对象是 。
2、另一个王木头提到的是
最大似然估计为中的 是永远无法确定的但我们把概率最大的 跳出来人为规定他就是系统本来就有的属性这个点我不理解不过我感觉没什么用。 二、最大后验估计MAP
在最大似然估计中有一个不严谨的地方是让 实际上他们是不相等的我们要求的是 但最大似然估计中求的是最大的 最大后验估计解决了这个不严谨的问题。即由贝叶斯公式
将不能计算的 转化为
其中 是似然函数 是先验分布p 是边际似然可以视为常数与优化无关。
因此MAP估计的目标可以等价于最大化
在对数形式下MAP可以写成
最大后验估计MAP的特点
考虑先验信息MAP结合了观测数据和参数的先验知识。先验信息通过 反映了我们对参数可能取值的先验信念。贝叶斯统计MAP是贝叶斯估计方法的一种将参数视为随机变量通过观测数据更新我们对参数的信念。适用于小样本数据MAP可以在样本较少的情况下引入先验信息提供稳定的估计。
三、MLE 和 MAP 的本质区别
从本质上来说MLE 和 MAP 的主要区别在于 先验的使用 MLE 只基于数据的似然函数进行参数估计不考虑任何先验信息。MAP 则通过先验分布 将先验信息纳入估计中因此 MAP 是贝叶斯估计的一种。 适用场景的差异 MLE 在大样本情况下表现很好因为在大样本极限下观测数据对估计的影响远大于先验。MAP 更适合小样本或需要引入先验信息的情况因为先验可以在样本较少时提供稳定性避免估计过于依赖有限的观测数据。 计算的差异 MLE 的目标是最大化似然函数 。MAP 的目标是最大化后验概率 相当于最大化 。 四、当先验是均匀分布时MLE 和 MAP 等价
值得注意的是如果先验分布 是均匀的即假设所有参数值的先验概率相同则 是一个常数这样 MAP 的目标函数就变为 常数
在这种情况下最大化 常数 等价于最大化 因此 MAP 和 MLE 会得到相同的结果。
这意味着在没有先验或先验均匀的情况下MAP 退化为 MLE。因此MAP 可以被视为 MLE 的一种推广它允许我们在估计中融入先验信息。
五、总结
本质区别在于
最大似然估计MLE 只依赖数据的似然不使用先验是一种频率派的估计方法。最大后验估计MAP 同时考虑数据的似然和参数的先验信息是一种贝叶斯派的估计方法。
总结公式
最大似然估计MLE 最大后验估计MAP
在有先验信息的情况下MAP 能够更好地利用先验信息对估计进行约束而 MLE 则完全依赖观测数据。