一级a做爰片免费网站给我看看,济南建设主管部门网站,如何免费注册网站,html网页框架代码基于统计方法的语言模型 基于统计方法的语言模型主要是指利用统计学原理和方法来构建的语言模型#xff0c;这类模型通过分析和学习大量语料库中的语言数据#xff0c;来预测词、短语或句子出现的概率。 N-gram模型#xff1a;这是最基础的统计语言模型之一#xff0c;它基…基于统计方法的语言模型 基于统计方法的语言模型主要是指利用统计学原理和方法来构建的语言模型这类模型通过分析和学习大量语料库中的语言数据来预测词、短语或句子出现的概率。 N-gram模型这是最基础的统计语言模型之一它基于统计语言模型的文本分析算法用于预测文本中下一个词出现的概率基于前面出现的n-1个词的序列。N-gram模型的“n”代表序列中元素的数量常见的有UnigramN1、BigramN2和TrigramN3模型。 隐马尔可夫模型HMM这是一种统计模型基于一个隐藏的马尔可夫链生成不可观测的状态序列并根据这些隐藏状态产生可观测的序列。HMM通过描述隐藏状态之间的转移概率以及隐藏状态到观测值的发射概率来模拟并预测观测序列的生成过程。 最大熵模型这是一种基于概率分布的模型用于描述任意语句字符串s属于某种语言集合的可能性。 条件随机场CRF这是一种用于建模序列数据的统计模型常用于自然语言处理任务如词性标注和命名实体识别。
N-gram模型
N-gram语言模型是一种基于统计的自然语言处理技术用于预测文本中连续出现的项目如字母、音节或单词的概率。
N-gram中的N指的是序列中连续项目的数目。
N-gram模型基于一个假设一个项目的出现只依赖于前面N-1个项目。以下是N-gram模型的一些关键点 Unigram Model1-gram模型 只考虑单个项目通常是单词的概率。忽略了单词之间的上下文关系。 Bigram Model2-gram模型 考虑两个连续项目通常是单词的概率。例如the后面跟着cat的概率。 Trigram Model3-gram模型 考虑三个连续项目的概率。例如“the后面跟着cat”然后是sat的概率。 更高阶的N-gram模型 可以扩展到4-gram、5-gram等但随着N的增加模型的复杂度和所需的数据量也会增加。 平滑技术 由于N-gram模型依赖于实际观察到的数据对于未出现过的N-gram序列模型无法给出概率。为了解决这个问题需要使用平滑技术如拉普拉斯平滑Laplace smoothing或Good-Turing折扣。 交叉熵损失 在训练N-gram模型时通常使用交叉熵损失函数来衡量模型预测的概率分布与实际观测到的数据之间的差异。 局限性 随着N的增加模型需要更多的数据来覆盖所有可能的N-gram组合这可能导致数据稀疏问题。N-gram模型通常无法捕捉长距离的依赖关系因为它们只考虑局部的上下文。
N-gram模型计算公式
公式基于条件概率即给定前N-1个词的情况下下一个词出现的概率。 P n − grams ( w 1 : N ) C ( w i − n 1 : i ) C ( w i − n 1 : i − 1 ) P_{n-\text{grams}}(w_1:N)\frac{C(w_{i-n1}:i)}{C(w_{i-n1}:i-1)} Pn−grams(w1:N)C(wi−n1:i−1)C(wi−n1:i)
这里 C ( w i − n 1 : i ) C(w_{i-n1}:i) C(wi−n1:i)是词序列 w i − n 1 , w i − n 2 , … , w i w_{i-n1},w_{i-n2},\ldots,w_i wi−n1,wi−n2,…,wi在语料库中出现的次数。 C ( w i − n 1 : i − 1 ) C(w_{i-n1}:i-1) C(wi−n1:i−1)是词序列 w i − n 1 , w i − n 2 , … , w i − 1 w_{i-n1},w_{i-n2},\ldots,w_{i-1} wi−n1,wi−n2,…,wi−1在语料库中出现的次数。
对于Unigramn1
分子 C ( w i − 1 1 : i ) C ( w i ) C(w_{i-11}:i)C(w_i) C(wi−11:i)C(wi)即词 w i w_i wi在语料库中出现的次数。分母 C ( w i − 1 1 : i − 1 ) C total C(w_{i-11}:i-1)C_{\text{total}} C(wi−11:i−1)Ctotal即语料库中词的总数。
对于Bigramn2
分子 C ( w i − 2 1 : i ) C ( w i − 1 , w i ) C(w_{i-21}:i)C(w_{i-1},w_i) C(wi−21:i)C(wi−1,wi)即词对 w i − 1 , w i w_{i-1},w_i wi−1,wi在语料库中出现的次数。分母 C ( w i − 2 1 : i − 1 ) C ( w i − 1 ) C(w_{i-21}:i-1)C(w_{i-1}) C(wi−21:i−1)C(wi−1)即词 w i − 1 w_{i-1} wi−1在语料库中出现的次数。
n-grams 的统计学原理
n-grams 语言模型基于马尔可夫假设和离散变量的极大似然估计给出语言符号的 概率。
n 阶马尔可夫假设
N阶马尔可夫假设也称为N阶马尔可夫链Markov chain of order N是马尔可夫过程的一个特例它描述了一个系统在下一个状态的概率分布仅依赖于当前状态以及之前的N-1个状态。
在自然语言处理中这个假设被用来构建N-gram模型其中每个“状态”可以是一个词或者一个字母。
具体来说N阶马尔可夫假设包含以下几个关键点 状态的依赖性 在一个N阶马尔可夫链中系统在时间t的状态 X t X_t Xt 仅依赖于时间 t − 1 , t − 2 , . . . , t − N t-1, t-2, ..., t-N t−1,t−2,...,t−N的状态即 X t − 1 , X t − 2 , … , X t − N X_{t-1}, X_{t-2}, \ldots, X_{t-N} Xt−1,Xt−2,…,Xt−N。 条件概率 给定前N个状态下一个状态的概率是确定的。数学上这可以表示为 P ( X t 1 x t 1 ∣ X t x t , X t − 1 x t − 1 , … , X t − N x t − N ) P ( X t 1 x t 1 ∣ X t x t ) P(X_{t1} x_{t1} | X_t x_t, X_{t-1} x_{t-1}, \ldots, X_{t-N} x_{t-N}) P(X_{t1} x_{t1} | X_t x_t) P(Xt1xt1∣Xtxt,Xt−1xt−1,…,Xt−Nxt−N)P(Xt1xt1∣Xtxt)这意味着给定当前状态 X t X_t Xt下一个状态 X t 1 X_{t1} Xt1 的概率分布与之前的状态 X t − 1 , X t − 2 , … , X t − N X_{t-1}, X_{t-2}, \ldots, X_{t-N} Xt−1,Xt−2,…,Xt−N 无关。 简化的模型 马尔可夫假设通过限制状态之间的依赖关系简化了模型的复杂度。在语言模型中这意味着每个词的出现仅依赖于前N-1个词而不是整个句子的历史。 N的选择 N的选择取决于具体应用和数据的特性。较小的N值如1或2可以减少计算复杂度但可能无法捕捉足够的上下文信息。较大的N值可以提供更多的上下文信息但会增加模型的复杂度并可能导致数据稀疏问题。 数据稀疏问题 在高阶马尔可夫模型中由于可能的状态组合数量急剧增加很多N-gram组合可能在训练数据中从未出现导致概率估计为零。这就需要使用平滑技术来估计这些未观察到的状态的概率。
离散型随机变量的极大似然估计MLE
离散型随机变量的极大似然估计MLE是一种统计学方法用于估计离散型随机变量的概率分布参数。
核心思想是选择参数值使得观测到的样本数据出现的概率似然性最大。 似然函数Likelihood Function 对于离散型随机变量似然函数是基于观测样本的联合概率分布作为参数的函数。如果样本是独立同分布的i.i.d.似然函数可以表示为每个观测值概率质量函数PMF的乘积。即对于观测值 x 1 , x 2 , . . . , x n x_1, x_2, ..., x_n x1,x2,...,xn 似然函数 L ( θ ) L(\theta) L(θ) 为 L ( θ ) ∏ i 1 n p ( x i ; θ ) L(\theta) \prod_{i1}^{n} p(x_i; \theta) L(θ)∏i1np(xi;θ) 其中 p ( x i ; θ ) p(x_i; \theta) p(xi;θ) 是随机变量 X X X 取值为 x i x_i xi 的概率 θ \theta θ 是待估计的参数。 对数似然函数Log-Likelihood Function 由于似然函数的乘积形式可能涉及大量的项计算不便通常取似然函数的自然对数得到对数似然函数 ℓ ( θ ) ln L ( θ ) ∑ i 1 n ln p ( x i ; θ ) \ell(\theta) \ln L(\theta) \sum_{i1}^{n} \ln p(x_i; \theta) ℓ(θ)lnL(θ)∑i1nlnp(xi;θ) 对数似然函数简化了计算并且在最大化似然函数时最大化对数似然函数可以得到相同的结果。 求导和求解 为了找到最大化似然函数的参数值通常对对数似然函数求导并令导数等于零求解参数 d d θ ℓ ( θ ) 0 \frac{d}{d\theta} \ell(\theta) 0 dθdℓ(θ)0 解这个方程可以得到参数的极大似然估计值。 极大似然估计值MLE 使似然函数或对数似然函数达到最大值的参数 θ \theta θ 称为极大似然估计值记作 θ ^ \hat{\theta} θ^。这个值代表了在给定样本下使得观测数据出现概率最大的参数值。 性质 极大似然估计具有一些良好的性质例如一致性随着样本量的增加MLE趋于真实参数值和渐近正态性对于大样本MLE的分布趋于正态分布。
推导
在 n-grams 语言模型中n 阶马尔可夫假被用来简化真实条件概率的计算。具体来说对于一个词序列 w 1 , w 2 , . . . , w N {w1, w2, ..., wN} w1,w2,...,wN第 i 个词 wi 出现的概率只依赖于它前面的 n-1 个词 w i − n 1 , . . . , w i − 1 {wi-n1, ..., wi-1} wi−n1,...,wi−1即 P ( w i ∣ w 1 : w i − 1 ) ≈ P ( w i ∣ w i − n 1 : i − 1 ) P(w_i | w_1:w_{i-1}) \approx P(w_i | w_{i-n1}:i-1) P(wi∣w1:wi−1)≈P(wi∣wi−n1:i−1)
这个假设将复杂的条件概率简化为只依赖于最近 n-1 个词的概率使得计算变得更加可行。
我们使用极大似然估计来近似词序列的条件概率。
给定一个词序列 w 1 , w 2 , . . . , w N {w1, w2, ..., wN} w1,w2,...,wN其出现的概率可以表示为 P ( w 1 : N ) ∏ i 1 N P ( w i ∣ w 1 : i − 1 ) P(w_1:N) \prod_{i1}^{N} P(w_i | w_1:i-1) P(w1:N)∏i1NP(wi∣w1:i−1)
根据 n 阶马尔可夫假设这可以简化为 P ( w i ∣ w 1 : i − 1 ) ≈ P ( w i ∣ w i − n 1 : i − 1 ) P(w_i | w_1:i-1) \approx P(w_i | w_{i-n1}:i-1) P(wi∣w1:i−1)≈P(wi∣wi−n1:i−1)
然后我们使用极大似然估计来近似这个条件概率。具体来说我们用词序列 w i − n 1 , . . . , w i {w_{i-n1}, ..., w_i} wi−n1,...,wi 在语料库中出现的次数 C ( w i − n 1 : i ) C(w_{i-n1}:i) C(wi−n1:i) 除以词序列 w i − n 1 , . . . , w i − 1 {w_{i-n1}, ..., w_{i-1}} wi−n1,...,wi−1 在语料库中出现的次数 C ( w i − n 1 : i − 1 ) C(w_{i-n1}:i-1) C(wi−n1:i−1) 来近似 P ( w i ∣ w i − n 1 : i − 1 ) P(w_i | w_{i-n1}:i-1) P(wi∣wi−n1:i−1) P ( w i ∣ w i − n 1 : i − 1 ) ≈ C ( w i − n 1 : i ) C ( w i − n 1 : i − 1 ) P(w_i | w_{i-n1}:i-1) \approx \frac{C(w_{i-n1}:i)}{C(w_{i-n1}:i-1)} P(wi∣wi−n1:i−1)≈C(wi−n1:i−1)C(wi−n1:i)
因此n-grams 语言模型的输出是对真实概率 P(w1:N) 的近似 P n − g r a m s ( w 1 : N ) ≈ P ( w 1 : N ) P_{n-grams}(w_1:N) \approx P(w_1:N) Pn−grams(w1:N)≈P(w1:N)
这个近似是基于对每个条件概率的极大似然估计它允许我们根据语料库中词序列的出现频率来估计整个文本序列的概率。