博客优化网站seo怎么写,赣州章贡区景点,用电脑建设个人网站 并用手机访问,wordpress淘宝客主题使用说明目录
前言
一、隐马尔可夫模型
二、马尔可夫随机场
三、条件随机场
四、学习和推断
1.变量消去
2.信念传播
五、近似推断
1.MCMC采样
2.变分推断
六、话题模型
总结 前言
机器学习最重要的任务是根据一些已观察到的证据来对感兴趣的未知变量进行估计和推测。概率模…目录
前言
一、隐马尔可夫模型
二、马尔可夫随机场
三、条件随机场
四、学习和推断
1.变量消去
2.信念传播
五、近似推断
1.MCMC采样
2.变分推断
六、话题模型
总结 前言
机器学习最重要的任务是根据一些已观察到的证据来对感兴趣的未知变量进行估计和推测。概率模型是其中的一种描述框架在概率模型中利用已知变量推测出未知变量的分布称为推断核心是如何基于可观测变量推断出未知变量的条件分布。生成式模型先对联合分布进行建模从而再来求解后验概率判别式模型则是直接对条件分布进行建模。
概率图模型是一类用图来表达变量相关关系的概率模型。其图中的一个结点表示一个或一组随机变量结点之间的边表示变量间的概率相关关系即变量关系图。根据边的性质可将概率图分为两类。第一类使用有向无环图表示变量间的依赖关系称为有向图模型或贝叶斯网第二类使用无向图表示变量间的相关关系叫做无向图模型或者马尔可夫网。
一、隐马尔可夫模型
隐马尔可夫模型HMM是结构最简单的动态贝叶斯网主要用于时序数据建模。其结构如下图所示 其中的变量大致分为两组第一组为状态变量y通常假定状态变量是隐藏的、不可被观察的因此也叫隐变量第二组是观测变量x其值可以是连续的也可以是离散的。变量之间的依赖关系遵循马尔可夫链即系统下一时刻的状态仅由当前状态决定不依赖于以往的任何状态。因此可以得到所有变量的联合概率分布 要想确定一个隐马尔可夫模型还需要一下的三种参数
状态转移概率模型在各状态间转换的概率通常即为矩阵其中输出观测概率根据状态输出获得各个观测值的概率即为矩阵其中初始状态概率模型在初始时刻各状态出现的概率记为其中
前上述三种参数加上状态空间和观测空间都确定了之后就可以确定一个隐马尔可夫模型其产生观测序列的步骤为
设置t1并根据初始状态概率选择初始状态根据状态和输出观测概率B选择观测变量取值根据状态和状态转移矩阵A转移模型状态即确定若tn设置tt1并执行第二步否则停止
在实际应用中人们主要关注的隐马尔可夫模型的三个基本问题
如何评估模型与观测序列之间的匹配程度如何根据观测序列推断出隐藏的模型状态如何训练模型使其能最好的描述观测数据
二、马尔可夫随机场
马尔可夫随机场MRF是典型的马尔可夫网是一种著名的无向图模型。图中的每一个结点表示一个或一组变量结点之间的边表示两个变量之间的依赖关系。MRF有一组势函数也叫因子其定义在变量子集上的非负实函数主要用于定义概率分布函数。
下图为一个简单的MRF对图中结点的子集若其中任意两结点间都有边相连就叫结点子集为一个团若在一个团中加入任意一个结点都不在形成团叫说该团为极大团。 若所有变量构成的极大团的集合为C则MRF的联合概率函数可以定义为 其中为规范化因子。
对于条件独立性马尔可夫随机场通过分离集来实现条件独立。如下图所示若A结点集必须经过C结点集才能到达B结点集则称C为分离集。 全局马尔可夫性给定两个变量子集的分离集则这两个变量子集条件独立。
局部马尔可夫性给定某变量的邻接变量则该变量与其它变量条件独立。
成对马尔可夫性给定所有其他变量两个非邻接变量条件独立。
MRF中的势函数主要用于描述团中变量之间的相关关系且要求为非负函数且在所偏好的变量取值上有较大的函数值。一般使用指数函数来定义势函数即 其中为一个定义在变量上的实值函数。
三、条件随机场
条件随机场CRF是一种判别式无向图模型。条件随机场试图对多个变量在给定观测值后的条件概率进行建模即若令为观测序列为与之对应的标记序列则条件随机场的目标是构建条件概率模型P。
理论上讲图G可以具有任意结构只要能表示标记变量之间的条件独立性关系即可在现实应用之中常用的为链式条件随机场chain-structured CRF结构大致如下图 与马尔可夫随机场定义联合概率类似地CRF也通过团以及势函数的概念来定义条件概率P(y | x)。在给定观测值序列的条件下链式条件随机场主要包含两种团结构单个状态团及相邻状态团通过引入两类特征函数便可以定义出目标条件概率 其中的为定义在观测序列的两个相邻标记位置上的转移特征函数用于刻画相邻标记变量之间的相关关系以及观测序列对它们的影响。是定义在观测序列的标记位置i上的状态特征函数。要使用条件随机场还需要合适的特征函数一般为实值函数以刻画数据的一些很可能成立或期望成立的经验特性。
条件随机场处理的是条件概率马尔可夫随机场处理的是联合概率。
四、学习和推断
基于概率图模型定义的联合概率分布能对目标变量的边际分步或以某些可观测变量为条件的条件分布进行推断。边际分布是指对无关变量求和或积分后得到结果。给定参数求解某个变量x的分布就变成对联合分布中其他无关变量进行积分的过程叫做边际化。
概率图模型推断大致分为两类其一为精确推断方法希望能计算出目标变量的边际分布或条件分布的精确值其二为近似推断方法希望在较低的时间复杂度的情况下获得原问题的近似解。
1.变量消去 精确推断的实质是一类动态规划算法其利用图模型所描述的条件独立性来削减计算目标概率值所需的计算量。变量消去法是最直观的精确推断算法是构建其他精确推断算法的基础。下图为其工作流程 变量消去利用条件独立性来消减计算目标概率值所需的计算量它通过运用乘法与加法的分配率将对变量的积的求和问题转化为对部分变量交替进行求积与求和的问题从而将每次的运算控制在局部达到简化运算的目的。
其一个明显的缺点在于若需计算多个边际分布重复使用变量消去法将会造成大量冗余计算。
2.信念传播
信念传播算法将变量消去法中的求和操作看做一个消息传递过程较好的解决了求解多个边际分布时的重复计算问题。在信念传播算法中一个结点仅在接收到来自其他所有结点的消息后才能向另一个结点发送消息并且结点的边际分布正比于他所接受的消息的乘积。即 若图结构中没有环那么通过下述两个步骤就可以完成所有消息的传递如下图所示
指定一个根节点从所有的叶节点开始向根节点传递消息直到根节点收到所有邻接结点的消息从叶到根从根节点开始向叶节点传递消息直到所有叶节点均收到消息 从根到叶 五、近似推断
现实中近似推断更常用其方法可大致分为采样和使用确定性近似完成近似推断。
1.MCMC采样
采样法基于的思路是基于概率分布来计算期望并且可能进一步基于这些期望做出决策。概率图模型中最常用的采样技术是马尔可夫链蒙特卡罗MCMC方法。给定连续变量的概率密度函数p(x)假定有函数那么可以计算f(x)的期望为 若x为一个高维多元变量且服从一个复杂的分布。MCMC先构造出服从p分布的独立同分布变量再得到上式的无偏估计 构造出服从p分布的独立同分布变量的关键在于通过构造平稳分布为p的马尔可夫链来产生样本若马尔可夫链运行时间足够长即收敛到平稳状态那么产出的样本x近似服从分布p。
MCMC方法先设法构造一条马尔可夫链使其收敛至平稳分布恰为待估计参数的后验分布然后通过这条马尔可夫链来产生符合后验分布的样本并基于这些样本来进行估计。不同的马尔可夫链转移概率的构造将会产生不同的MCMC算法。
MCMC的重要代表为MH算法其基于拒绝采样来逼近平稳分布p其基本步骤如下图所示 吉布斯采样有时被视为MH算法的特例其也使用马尔可夫链获取样本。
2.变分推断
变分推断通过使用已知简单分布来逼近需推断的复杂分布并通过限制近似分布的类型从而得到一种局部最优的、有确定解的近似后验分布。
概率图的一种简洁的表示方法为盘式记法如下所示 盘式记法中相互独立、由相同机制生成的多个变量会被放在同一个方框里面并在方框里面标出类似变量重复出现的个数N。上图所对应的推断和学习任务主要是由观察到的变量x来估计隐变量z和分布参数变量。
概率模型的参数估计一般使用最大化似然函数的方法。再实践中使用变分法时最重要的是考虑对隐变量进行拆解以及假设各变量子集服从何种分布。
六、话题模型
话题模型是一族生成式有向图模型主要用于处理离散型数据。隐狄利克雷分配模型LDA是话题模型的典型代表。首先需要先了解话题模型的几个概念词、文档和话题。 词最基本的离散单元 文档由一组词组成词在文档中不计顺序 话题由一组特定的词组成这组词具有较强的相关关系。 现实任务中可通过统计文档中出现的词来获得词频向量但不知道其对应的话题是什么也不知道与哪些话题相关。LDA解决了这些问题其认为每篇文档包含多个话题那么可以认为可以通过下述的步骤由话题生成文档t 1.根据参数为的狄利克雷分布随机采样一个话题分布 2.在按下述步骤生成文档中的N个词 (a)根据进行话题指派得到文档t中的词n的话题 (b)根据指派的话题所对应的词频分布随机采样生成词 LDA的变量关系为 其中文档的词频 为唯一的已观测变量通过其可以得到LDA模型对应的概率分布为 给定训练数据WLDA的模型参数可通过极大似然法估计即寻找和已最大化似然估计下式 在实践中通常采用变分法来求解。对于参数和已确定的根据词频来推断文档集所对应的话题结构可通过求解下式 在实践中常使用吉布斯采样或者变分法进行近似推断。
总结 本章主要从生成式模型与判别式模型出发引入概率图模型基本概念利用图结构表达变量依赖关系介绍隐马尔可夫模型、马尔可夫随机场、条件随机场、精确推断方法及LDA话题模型。