微网站和手机网站的区别,wordpress破解插件,租云服务器一个月多少钱,网站建设意向表14.1 隐马尔可夫模型
机器学习最重要的任务#xff0c;是根据一些已观察到的证据#xff08;例如训练样本#xff09;来对感兴趣的未知变量#xff08;例如类别标记#xff09;进行估计和推测。概率模型#xff08;probabilistic model#xff09;提供了一种描述框架是根据一些已观察到的证据例如训练样本来对感兴趣的未知变量例如类别标记进行估计和推测。概率模型probabilistic model提供了一种描述框架将学习任务归结于计算变量的概率分布。在概率模型中利用已知变量推测位置变量的分布称为“推断”inference其核心是如何基于可观测变量推测出未知变量的条件分布。具体来说假定所关心的变量集合为Y可观测变量集合为O其他变量集合为R
“生成式”generative模型考虑联合分布P(Y,R,O)“判别式”discriminative模型考虑条件分布P(Y,R|O);
给定一组观测变量值推断就是由P(Y,R,O)或P(Y,R|O)得到条件分布P(Y|O)。 直接利用概率和规则消去变量R显然不可行。为了便于研究高效的推断和学习算法需要有一套能简洁紧凑地表达变量间关系的工具。
概率图模型(probabilistic graphical model)是一类用图来表达变量相关关系的概率模型.它以图为表示工具最常见的是用一个结点表示一个或一组随机变量结点之间的边表示变量间的概率相关关系即 “变量关系图”.根据边的性质不同概率图模型可大致分为两类
第一类是使用有向无环图表示变量间的依赖关系称为有向图模型或贝叶斯网(Bayesian network);第二类是使用无向图表示变量间的相关关系称为无向图模型或马尔可夫网(Markov network).
隐马尔可夫模型Hidden Markov Model简称HMM是结构最简单的动态贝叶斯网dynamic Bayesian network这是一种著名的有向图模型主要用于时序数据建模在语音识别、自然语言处理等领域有广泛应用。 隐马尔可夫模型中的变量可分为两组。第一组是状态变量{y1y2…yn}其中yi∈Y表示第i时刻的系统状态。通常假定状态变量是隐藏的、不可被观测的因此状态变量亦称隐变量hidden variable。第二组是观测变量{x1x2…xn}其中xi∈X表示第i时刻的观测值。在隐马尔可夫模型中系统通常在多个状态{s1s2…sN}之间转换。如下图所示 在任一时刻观测变量的取值仅依赖于状态变量即xt由yt确定与其他状态变量及观测变量的取值无关。同时t时刻的状态yt仅依赖于 t-1时刻的状态yt-1与其余n-2个状态无关。这就是所谓的“马尔可夫链”Markov chain即系统下一时刻的状态仅由当前状态决定不依赖于以往的任何状态。 在实际应用中人们常常关注隐马尔可夫模型的三个基本问题
如何评价模型与观察序列之间的匹配程度 例如许多任务需根据以往的观察序列{x1x2…xn-1}来推测当前时刻最可能的观测值xn如何根据观测序列推断出隐藏的模型状态 例如在语音识别等任务中观测值为语音信号隐藏状态为文字目标就是根据观测信号来推断最有可能的状态序列即对应的文字如何训练模型使其能最好的描述观测数据 例如在大多数现实应用中人工指定模型参数已变得越来越不可行如何根据训练样本学得最优的模型参数
14.2 马尔可夫随机场
马尔可夫随机场markov Random Field简称MRF是典型的马尔可夫网这是一种著名的无向图模型。图中每个结点表示一个或一组变量结点之间的边表示两个变量之间的依赖关系。马尔可夫随机场有一组势函数potential function亦称“因子”factor这是定义在变量子集上的非负函数主要用于定义概率分布模型。
14.3 条件随机场
条件随机场Conditional Random Field简称CRF是一种判别式无向图模型。生成式模型是直接对联合分布进行建模而判别式模型则是对条件分布进行建模。前面介绍的隐马尔可夫模型和马尔可夫随机场都是生成式模型而条件随机场是判别式模型。
14.4 学习与推断
基于概率图模型定义的联合概率分布我们能对目标变量的边际分布marginal distribution或以某些可观测变量为条件的条件分布进行推断。 对概率图模型还需确定具体分布的参数这称为参数估计或参数学习问题。 概率图模型的推断方法大致可分为两类
第一类是精确推断方法 希望能计算出目标变量的边际分布或条件分布的精确值。遗憾的是一般情形下此类算法的计算复杂度随着极大团规模的增长呈指数增长适用范围有限。第二类是近似推断方法 希望在较低时间复杂度下获得原问题的近似解。此类方法在现实任务中更常用。
精确推断具有代表性的方法有
1.变量消去 精确推断的实质是一类动态规划算法它利用图模型所描述的条件独立性来消减计算目标概率值所需的计算量。变量消去是最直观的精确推断算法也是构建其他精确推断算法的基础。 变量消去法有一个明显的缺陷若需计算多个边际分布重复使用变量消去法将对造成大量的冗余计算。
2.信念传播 信念传播Belief Propagation算法将变量消去法中的求和操作看作一个消息传递过程较好的解决了求解多个边际分布时重复计算问题。
14.5 近似推断
精确推断方法通常需要很大的计算开销因此在现实应用中近似推断方法更为常用。近似推断方法大致可分为两大类
第一类是采样sampling 通过使用随机化方法完成近似第二类是使用确定性近似完成近似推断 典型代表为变分推断variational inference
1.MCMC采样 概率图模型中最常用的采用技术是马尔可夫链蒙特卡罗Markov Chain Monte Carlo简称MCMC方法。
2.变分推断 变分推断通过使用已知简单分布来逼近所需推断的复杂分布并通过限制近似分布的类型从而得到一种局部最优、但具有确定解的近似后验分布。
14.6 话题模型
话题模型topic model是一族生成式有向图模型主要用于处理离散型的数据如文本集合在信息检索、自然语言处理等领域有广泛应用。隐狄利克雷分配模型Latent Dirichlet Allocation简称LDA是话题模型的典型代表。 话题模型中有几个重要概念词word、文档document和话题topic。
词 “词”是待处理数据的基本离散单元例如在文本处理任务中一个词就是一个英文单词或有独立意义的中文词。文档 “文档”是待处理的数据对象它由一组词组成这次词在文档中是不计顺序的例如一篇论文、一个网页都可看做一个文档这种表示方式称为“词袋”bag-of-words。数据对象只要能用词袋描述就可使用话题模型。话题 “话题”表示一个概念具体表示为一系列相关的词以及它们在该概念下出现的概率。