网站照片如何处理,以图搜图百度识图,短视频推广哪家好,wordpress 图片加链接贝叶斯学习 文章目录 贝叶斯学习1 贝叶斯学习背景2 贝叶斯定理3 最大后验假设MAP(Max A Posterior)4 极大似然假设ML(Maximum Likelihood)5 朴素贝叶斯NB6 最小描述长度MDL 1 贝叶斯学习背景
试图发现两件事情的关系#xff08;因果关系#xff0c;先决条件结论#x…贝叶斯学习 文章目录 贝叶斯学习1 贝叶斯学习背景2 贝叶斯定理3 最大后验假设MAP(Max A Posterior)4 极大似然假设ML(Maximum Likelihood)5 朴素贝叶斯NB6 最小描述长度MDL 1 贝叶斯学习背景
试图发现两件事情的关系因果关系先决条件结论。 执果索因肺炎→肺癌不好确定换成确诊肺癌得肺炎的概率 2 贝叶斯定理
贝叶斯定理是一种用先验慨率来推断后验慨率的公式它可以表示为 P ( h ∣ D ) P ( D ∣ h ) P ( h ) P ( D ) P(h|D) \frac{P(D|h)P(h)}{P(D)} P(h∣D)P(D)P(D∣h)P(h) P ( h ∣ D ) P(h|D) P(h∣D) 是后验概率表示在已知事件 D 发生的情况下事件 h 发生的概率 P ( h ) P(h) P(h) 是 h 的先验概率表示在没有任何其他信息的情况下事件 h 发生的概率 h h h 代表假设应互相排斥且假设空间 H H H 完全详尽即 ∑ P ( h i ) 1 \sum P(h_i)1 ∑P(hi)1 P ( D ) P(D) P(D) 是证据概率表示在没有任何其他信息的情况下事件 D 发生的概率 D D D 代表数据的一个采样集合需要与 h h h 独立。 P ( D ∣ h ) P(D|h) P(D∣h) 是似然概率表示在已知事件 h 发生的情况下事件 D 发生的概率 在实践上往往取 l o g log log 是可以得到的概率。 举例 h h h 代表得了癌症 D D D 为测试结果为阳性。 P ( h ∣ D ) P(h|D) P(h∣D)已知测试结果为阳性得癌症的概率。 P ( D ∣ h ) P(D|h) P(D∣h)已知得了癌症测试结果为阳性的概率。 我们已知 正确的阳性样本: 98% (患有该癌症, 测试结果为 )正确的阴性样本: 97% (未患该癌症, 测试结果为 -)在整个人群中只有0.008 的人患这种癌症 如果一个人测试结果阳性多大概率得癌症 ∵ P ( ∣ cancer ) 0.98 ; P ( cancer ) 0.008 ; P ( − ∣ ¬ cancer ) 0.97 ; ∴ P ( ∣ ¬ cancer ) 0.03 ; P ( ¬ cancer ) 0.992 P ( ) ∑ i P ( ∣ h i ) P ( h i ) P ( ∣ cancer ) P ( cancer ) P ( ∣ ¬ cancer ) P ( ¬ cancer ) P ( cancer ∣ ) P ( ∣ cancer ) P ( cancer ) P ( ) 0.98 × 0.008 0.98 × 0.008 0.03 × 0.992 0.21 \because P(|\text{cancer})0.98;P(\text{cancer})0.008;P(-|\neg \text{cancer})0.97; \\\therefore P(|\neg \text{cancer})0.03;P(\neg \text{cancer})0.992 \\P()\sum_iP(|h_i)P(h_i)P(|\text{cancer})P(\text{cancer})P(|\neg \text{cancer})P(\neg \text{cancer}) \\P(\text{cancer}|)\frac{P(|\text{cancer})P(\text{cancer})}{P()}\frac{0.98×0.008}{0.98×0.0080.03×0.992}0.21 ∵P(∣cancer)0.98;P(cancer)0.008;P(−∣¬cancer)0.97;∴P(∣¬cancer)0.03;P(¬cancer)0.992P()i∑P(∣hi)P(hi)P(∣cancer)P(cancer)P(∣¬cancer)P(¬cancer)P(cancer∣)P()P(∣cancer)P(cancer)0.98×0.0080.03×0.9920.98×0.0080.21 3 最大后验假设MAP(Max A Posterior)
求在给定训练集上最有可能的假设。 h MAP argmax h ∈ H P ( D ∣ h ) P ( h ) h_{\text{MAP}}\underset{h∈H}{\text{argmax}}\ P(D|h)P(h) hMAPh∈Hargmax P(D∣h)P(h) argmax h ∈ H \underset{h∈H}{\text{argmax}} h∈Hargmax 指令后续公式取值最大的参数 h h h。
最大后验概率的思想是在有一些关于参数的先验知识的情况下根据观测数据来修正参数的概率分布并选择使后验概率最大的参数值作为估计值。
4 极大似然假设ML(Maximum Likelihood)
如果我们完全不知道假设的概率分布或者我们知道所有的假设发生的概率相同那么MAP 等价于 极大似然假设 h M L h_{ML} hML (Maximum Likelihood)其公式为 h M L arg max h i ∈ H P ( D ∣ H i ) h_{ML}\mathop{\arg\max}_{h_i∈H}\ P(D|H_i) hMLargmaxhi∈H P(D∣Hi) 最小二乘LSE 最小二乘法Least Squares Method又称最小平方法是一种数学优化方法它通过最小化误差的平方和来找到数据的最佳函数匹配。假设训练数据为 x i , d i x_i,d_i xi,di d i f ( x i ) e i d_if(x_i)e_i dif(xi)ei d i d_i di独立的样本 f ( x ) f(x) f(x)没有噪声的目标函数值 e i e_i ei噪声独立随机变量符合正态分布。 极大似然和最小二乘法的关系 h M L argmax h ∈ H P ( D ∣ h ) P ( h ) argmax h ∈ H ∏ i 1 m p ( d i ∣ h ) argmax h ∈ H ∏ i 1 m 1 2 π σ 2 e − 1 2 ( d i − h ( x i ) σ ) 2 (正态分布) argmax h ∈ H ∑ i 1 m ln 1 2 π σ 2 − 1 2 ( d i − h ( x i ) σ ) 2 (取ln,单调性) argmax h ∈ H ∑ i 1 m ( d i − h ( x i ) ) 2 (最小二乘) \begin{align} h_{ML} \underset{h∈H}{\text{argmax}}\ P(D|h)P(h) \\ \underset{h∈H}{\text{argmax}}\ \prod_{i1}^mp(d_i|h) \\ \underset{h∈H}{\text{argmax}}\ \prod_{i1}^m\frac{1}{\sqrt{2π\sigma^2}}e^{-\frac{1}{2}(\frac{d_i-h(x_i)}{\sigma})^2}\text{(正态分布)} \\ \underset{h∈H}{\text{argmax}}\ \sum_{i1}^m \ln\frac{1}{\sqrt{2π\sigma^2}}-\frac{1}{2}(\frac{d_i-h(x_i)}{\sigma})^2\text{(取ln,单调性)} \\ \underset{h∈H}{\text{argmax}}\ \sum_{i1}^m (d_i-h(x_i))^2\text{(最小二乘)}\\ \end{align} hMLh∈Hargmax P(D∣h)P(h)h∈Hargmax i1∏mp(di∣h)h∈Hargmax i1∏m2πσ2 1e−21(σdi−h(xi))2h∈Hargmax i1∑mln2πσ2 1−21(σdi−h(xi))2h∈Hargmax i1∑m(di−h(xi))2(正态分布)(取ln,单调性)(最小二乘) 在独立随机变量正态分布噪声的情况下 h M L h L S E h_{ML}h_{LSE} hMLhLSE
5 朴素贝叶斯NB
朴素贝叶斯的核心思想是根据贝叶斯定理后验概率 P(Y|X) 与先验概率 P(Y) 和似然概率 P(X|Y) 成正比
朴素贝叶斯假设 P ( x ∣ y i ) P ( a 1 , a 2 . . . a n ∣ v j ) ∏ i P ( a i ∣ v j ) P(x|y_i)P(a_1,a_2...a_n|v_j) \prod_iP(a_i|v_j) P(x∣yi)P(a1,a2...an∣vj)i∏P(ai∣vj) a 1 , a 2 . . . a n a_1,a_2...a_n a1,a2...an是相互独立的属性 v j v_j vj某条件。
朴素贝叶斯分类器 v NB arg max v i ∈ V { log P ( v j ) ∑ i log P ( a i ∣ v j ) } v_{\text{NB}}\mathop{\arg\max}_{vi∈V}\{\log P(v_j)\sum_i\log P(a_i|v_j) \} vNBargmaxvi∈V{logP(vj)i∑logP(ai∣vj)} 如果满足属性之间的独立性那么 v MAP v NB v_{\text{MAP}}v_{\text{NB}} vMAPvNB 举例1词义消歧 (Word Sense Disambiguation) 对于单词 w使用上下文 c 进行词义消歧 e.g. A fly flies into the kitchen while he fry the chicken. 如何判断fly的含义根据上下文 c c c 在词 w w w 周围一组词 w i w_i wi (特征)进行判断词义 s i s_i si 朴素贝叶斯假设 P ( c ∣ s k ) ∏ w i ∈ c P ( w i ∣ s k ) P(c|s_k) \prod_{w_i∈c} P(w_i|s_k) P(c∣sk)∏wi∈cP(wi∣sk) 朴素贝叶斯选择 s a r g m a x s k { log P ( s k ) ∑ w i ∈ c log P ( w i ∣ s k ) } s\underset{s_k}{argmax}\{\log P(s_k)\sum_{w_i∈c}\log P(w_i|s_k) \} sskargmax{logP(sk)∑wi∈clogP(wi∣sk)} 其中 P ( s k ) C ( s k ) C ( w ) , P ( w i ∣ s k ) C ( w i , s k ) C ( s k ) P(s_k)\frac{C(s_k)}{C(w)},P(w_i|s_k)\frac{C(w_i,s_k)}{C(s_k)} P(sk)C(w)C(sk),P(wi∣sk)C(sk)C(wi,sk) 举例 2: 垃圾邮件过滤 经验数据量要大注重邮件头不对词进行词干化只用最显著的词对假阳性做偏置 6 最小描述长度MDL
偏向假设 h 使得最小化 h MDL arg min h ∈ H { L C 1 ( h ) L C 2 ( D ∣ h ) } h_{\text{MDL}}\mathop{\arg\min}_{h∈H}\{L_{C_1}(h)L_{C_2}(D|h) \} hMDLargminh∈H{LC1(h)LC2(D∣h)} 其中 L C x L_{C_x} LCx 是 x x x 在编码 C C C 下的描述长度。
为可能性较大的消息赋予较短的编码
在对信息编码时更偏好 一个短的且错误更少的假设而不是一个长的但完美分类训练数据的假设