当前位置：首页 > news >正文

为什么访问外国网站速度慢做全房订制网站公司

news 2025/12/20 19:52:55

为什么访问外国网站速度慢,做全房订制网站公司,网站推广怎么做的,郑州做旅游网站大家好#xff0c;这里是好评笔记#xff0c;公主号#xff1a;Goodnote#xff0c;专栏文章私信限时Free。本文详细介绍面试过程中可能遇到的循环神经网络LSTM知识点。文章目录文本特征提取的方法1. 基础方法1.1 词袋模型#xff08;Bag of Words, BOW#xff09;工作… 大家好这里是好评笔记公主号Goodnote专栏文章私信限时Free。本文详细介绍面试过程中可能遇到的循环神经网络LSTM知识点。文章目录文本特征提取的方法1. 基础方法1.1 词袋模型Bag of Words, BOW工作原理举例优点缺点 1.2 TF-IDFTerm Frequency-Inverse Document Frequency工作原理举例优点缺点 1.3 TF-IDF的改进——BM25优化 1.4 N-Gram 模型工作原理举例优点缺点 2. 词向量Word Embeddings2.1 Word2Vec工作原理举例优点缺点 2.2 FastText工作原理优点缺点 3. 预训练模型BERTBidirectional Encoder Representations from Transformers工作原理优点缺点总结 LSTMLong Short-Term MemoryLSTM 的核心部件LSTM 的公式和工作原理(1) 遗忘门Forget Gate(2) 输入门Input Gate(3) 更新记忆单元状态(4) 输出门Output Gate LSTM 的流程总结LSTM 的优点LSTM 的局限性热门专栏机器学习深度学习文本特征提取的方法 1. 基础方法 1.1 词袋模型Bag of Words, BOW 词袋模型最简单的方法。它将文本表示为一个词频向量不考虑词语的顺序或上下文关系只统计每个词在文本中出现的频率。工作原理构建词汇表对整个语料库中的所有词汇建立一个词汇表也称为词典。每个文档中的每个词都与词汇表中的一个位置对应。生成词频向量对于每个文本文档生成一个与词汇表长度相同的向量。向量中每个元素表示该词在文档中出现的次数或者是否出现用二进制表示。举例假设有两个句子句子 1猫喜欢鱼句子 2狗不喜欢鱼词汇表 [“猫”, “狗”, “喜欢”, “不”, “鱼”] 句子 1 的词袋向量表示为[1, 0, 1, 0, 1]句子 2 的词袋向量表示为[0, 1, 1, 1, 1] 优点简单直观易于实现有效地表示词频信息。缺点忽略词序词袋模型无法捕捉词语的顺序因此在语义表达上有局限。高维稀疏对于大词汇表词袋模型会生成非常长的特征向量大多数元素为 0容易导致稀疏矩阵影响计算效率。受到常见词的影响常见词如 “the”、“and” 等可能在各类文档中频繁出现但对语义贡献较少词袋模型会受到这些高频词的影响降低模型的效果。 1.2 TF-IDFTerm Frequency-Inverse Document Frequency TF-IDF 是对词袋模型的改进它为词语赋予不同的权重来衡量每个词在文档中的重要性。与词袋模型相比TF-IDF 不仅考虑词频还考虑词的普遍性以避免常见词如the、“and”的影响。工作原理 TF词频计算某个词在文档中出现的频率。 T F ( t , d ) 词 t 在文档 d 中的出现次数文档 d 的总词数 TF(t,d)\frac{词t在文档d中的出现次数}{文档d的总词数} TF(t,d)文档d的总词数词t在文档d中的出现次数IDF逆文档频率衡量词在整个语料库中的普遍性出现频率越低的词权重越高。 I D F ( t ) log ⁡ ( N 1 D F ( t ) ) IDF(t)\log\left(\frac{N}{1 DF(t)}\right) IDF(t)log(1DF(t)N) 其中 N N N是文档总数 D F ( t ) DF(t) DF(t)是包含词 t t t的文档数。 TF - IDF将 T F TF TF和 I D F IDF IDF相乘得到词在特定文档中的权重 T F − I D F ( t , d ) T F ( t , d ) × I D F ( t ) TF - IDF(t,d)TF(t,d)\times IDF(t) TF−IDF(t,d)TF(t,d)×IDF(t) 举例对于句子“猫喜欢鱼”和“狗不喜欢鱼”假设 “喜欢” 出现在所有文档中IDF 会给它较低的权重而像 “猫”、“狗” 这样的词会有较高的 IDF 权重因为它们只出现在一部分文档中。优点更准确地反映词的重要性避免了词袋模型中常见词占主导地位的情况。尤其适用于文本分类任务。缺点稀疏矩阵虽然词频的权重经过调整但词汇表的大小仍然很大容易产生稀疏矩阵问题。忽略词序仍然无法捕捉词语之间的顺序和上下文关系。 1.3 TF-IDF的改进——BM25 BM25对TF和IDF进行加权同时考虑文档长度对相关性的影响使得对较短和较长文档的评分更加合理。 BM25 的计算公式如下 B M 25 ( q , d ) ∑ t ∈ q I D F ( t ) ⋅ T F ( t , d ) ⋅ ( k 1 1 ) T F ( t , d ) k 1 ⋅ ( 1 − b b ⋅ ∣ d ∣ a v g d l ) BM25(q,d)\sum_{t\in q}IDF(t)\cdot\frac{TF(t,d)\cdot(k_1 1)}{TF(t,d)k_1\cdot(1 - b b\cdot\frac{|d|}{avgdl})} BM25(q,d)t∈q∑IDF(t)⋅TF(t,d)k1⋅(1−bb⋅avgdl∣d∣)TF(t,d)⋅(k11) 其中 q q q 是查询 d d d 是文档 t t t 是查询中的词。 I D F IDF IDF是与 T F − I D F TF - IDF TF−IDF相似的逆文档频率。 T F TF TF是词频。 k 1 k_1 k1 是调节词频饱和度的参数通常取值范围为 [ 1.2 , 2.0 ] [1.2,2.0] [1.2,2.0]。 b b b 是调节文档长度的参数通常取值范围为 [ 0.0 , 1.0 ] [0.0,1.0] [0.0,1.0] b 0.75 b 0.75 b0.75是一个常用的设置。 ∣ d ∣ |d| ∣d∣是文档的长度词数 a v g d l avgdl avgdl是语料库中文档的平均长度。 TF-IDF 中的 IDF逆文档频率使用 log ⁡ N d f ( t ) \log\frac{N}{df(t)} logdf(t)N来衡量词的普遍性。然而这种计算方式可能会导致在某些极端情况下如 df(t) 0 出现不合理的结果。 BM25 对 IDF 进行了小改进以提高在极端情况下的稳定性 I D F ( t ) log ⁡ N − d f ( t ) 0.5 d f ( t ) 0.5 IDF(t)\log\frac{N - df(t) 0.5}{df(t) 0.5} IDF(t)logdf(t)0.5N−df(t)0.5 这种改进的 IDF 计算在文档数量较少或者某个词的出现频率极高时能提供更合理的 IDF 值增加了 BM25 的稳定性。优化相比于 TF-IDFBM25 主要做了以下改进非线性词频缩放通过 k 1 k_1 k1 控制词频TF饱和避免 TF 值无限增大导致的偏差。文档长度归一化使用参数 b b b调整文档长度对评分的影响防止长文档得分偏高。改进的 IDF 计算使用平滑后的 IDF 计算保证在极端情况下的稳定性。查询词频考虑在评分中更合理地衡量查询中词频的影响提高了对复杂查询的检索效果。 1.4 N-Gram 模型 N-Gram 模型是一种基于词袋模型的扩展方法它通过将词组作为特征来捕捉词语的顺序信息。工作原理 N-Gram 是指在文本中提取连续的 n 个词组成的词组作为特征。当 n1 时即为 unigram单词级别特征当 n2 时即为 bigram双词组特征当 n3 时即为 trigram词三元组特征。在提取 N-Gram 时模型不仅关注单个词还捕捉到词与词之间的顺序和依赖关系。例如2-Gram 模型会将句子分解为相邻的两词组合。举例对于句子“猫喜欢吃鱼”2-Gram 模型会提取出以下特征 [“猫喜欢”, “喜欢吃”, “吃鱼”] 优点能捕捉到顺序和依赖关系比单词级别的特征表达更丰富。n 越大模型捕捉的上下文信息越多。缺点维度膨胀n 值越大特征向量的维度会急剧增加容易导致稀疏矩阵和计算复杂度升高。对长文本N-Gram 模型可能会生成非常多的组合计算资源消耗较大。 2. 词向量Word Embeddings 词向量是现代 NLP 中的关键特征提取方法能够捕捉词语的语义信息。常见的词向量方法包括 Word2Vec、GloVe、和 FastText。词向量的核心思想是将每个词表示为一个低维的、密集的向量词向量之间的相似性能够反映词语的语义相似性。 2.1 Word2Vec Word2Vec 是一种使用浅层神经网络学习词向量的模型由 Google 在 2013 年提出。它有两种模型架构CBOW 和 Skip-gram。工作原理 CBOWContinuous Bag of Words根据上下文中的词语来预测中心词。模型输入是上下文词语输出是预测的中心词。Skip-gram与 CBOW 相反它是根据中心词来预测上下文中的词语。举例对于一个句子 “猫喜欢吃鱼”CBOW 会使用上下文 [“猫”, “吃”, “鱼”] 来预测 “喜欢”而 Skip-gram 则会使用 “喜欢” 来预测上下文。优点语义相似性Word2Vec 生成的词向量能够捕捉词语之间的语义相似性。例如“king” 和 “queen” 的词向量会非常相近。稠密向量与词袋模型和 TF-IDF 生成的高维稀疏向量不同Word2Vec 生成的词向量是低维的密集向量如 100 维或 300 维更加高效。缺点无法处理 OOV未登录词如果测试集中出现了训练集中未见过的词Word2Vec 无法为其生成词向量。上下文无关Word2Vec 生成的词向量是固定的无法根据上下文变化来调整词向量。 2.2 FastText FastText 是 Facebook 提出的词向量方法它是 Word2Vec 的改进版。FastText 通过将词分解为n-gram字符级别的子词捕捉词的形态信息。工作原理 FastText 将词分解为多个字符 n-gram然后对每个 n-gram 生成词向量。通过这种方式FastText 可以捕捉到词语内部的形态信息尤其对拼写错误或未登录词有较好的处理能力。优点处理 OOV未登录词因为 FastText 基于子词生成词向量它能够为未见过的词生成向量表示。考虑词形信息能够捕捉词的形态变化例如词根、前缀、后缀等。缺点计算复杂度较高相比 Word2VecFastText 需要对每个词生成多个 n-gram因此计算量更大。 3. 预训练模型BERTBidirectional Encoder Representations from Transformers BERT 是一种基于 Transformer 架构的预训练语言模型由 Google 于 2018 年提出。与传统的词向量方法不同BERT 通过双向的 Transformer 网络能够生成上下文相关的动态词向量。工作原理双向TransformerBERT 同时从词语的前后上下文学习词的表示而不像传统的模型只从前向或后向学习。这样BERT 能够捕捉到更丰富的语义信息。预训练任务遮蔽语言模型Masked Language Model, MLM在训练时BERT 会随机遮蔽部分词语并要求模型预测这些词从而让模型学到上下文的双向依赖关系。下一句预测Next Sentence Prediction, NSP训练时BERT 要预测两句话是否是连续的句子对这让模型能够学习句子级别的关系。优点上下文相关词向量BERT 生成的词向量是上下文相关的。例如“bank” 在句子 “I went to the bank” 和 “The river bank” 中会有不同的向量表示。强大的语义理解能力BERT 在问答、阅读理解、文本分类等任务中表现非常好能够捕捉到复杂的语义关系。缺点计算资源需求大BERT 是一个深层的 Transformer 模型预训练和微调都需要大量的计算资源训练时间较长。较慢的推理速度由于模型较大在实际应用中推理速度较慢尤其在实时任务中。 BERT详细参考历史/后续文章[深度学习笔记——GPT、BERT、T5] 总结方法工作原理优点缺点适用场景词袋模型BOW将文本表示为词频向量不考虑词序和上下文。简单直观易实现能够有效表示词频信息。忽略词序生成高维稀疏向量。文本分类、信息检索TF-IDF基于词袋模型考虑词在文档中的频率以及整个语料库中的普遍性赋予不同词权重。反映词的重要性避免常见词主导影响适用于文本分类。生成稀疏矩阵无法捕捉词序和上下文关系。文本分类、关键词提取BM25基于 TF-IDF 的改进考虑词频、文档长度、词重要性等因素以计算每个词对文档匹配的相关性得分。非线性词频缩放、文档长度归一化、改进的 IDF 计算更好地反映词在文档中的相关性更适合信息检索适用于长文档计算匹配更准确。对参数敏感适用性依赖于超参数调优不能捕捉上下文关系。信息检索、文档排名N-Gram捕捉连续 n 个词作为特征考虑词序信息。能捕捉词语的顺序和依赖关系n 越大捕捉的上下文信息越多。维度膨胀计算资源消耗大。语言模型、短文本分类Word2Vec使用浅层神经网络学习词向量有 CBOW 和 Skip-gram 两种架构。词向量能捕捉语义相似性生成低维稠密向量效率高。无法处理未登录词OOV词向量上下文无关。词嵌入、相似度计算、文本分类FastText将词分解为字符 n-gram生成词向量捕捉词的形态信息。能处理未登录词捕捉词形信息适合拼写错误和变形词。计算复杂度高于 Word2Vec。词嵌入、拼写纠错、文本分类BERT基于双向 Transformer通过预训练生成上下文相关的词向量支持 Masked Language Model 和 Next Sentence Prediction。生成上下文相关词向量语义理解强适用于复杂 NLP 任务。需要大量计算资源训练和推理时间长。问答系统、文本分类、阅读理解传统方法如词袋模型、TF-IDF 和 N-Gram 易于实现但无法捕捉语义和上下文信息。词向量方法如 Word2Vec 和 FastText 通过词嵌入表示词语的语义关系适合语义相似度计算、文本分类等任务。FastText 能够处理未登录词。预训练模型如 BERT能够生成上下文相关的动态词向量适用于更复杂的自然语言处理任务但对计算资源的要求更高。 LSTMLong Short-Term Memory LSTM 是 RNN 的一种改进版本旨在解决 RNN 的长时间依赖问题。LSTM 通过引入记忆单元cell state 和门控机制gates 来有效地控制信息流动使得它在长序列建模中表现优异。 LSTM 的核心部件 LSTM 的核心结构由以下几部分组成记忆单元Cell State贯穿整个序列的数据流【图中的C】能够存储序列中的重要信息允许网络长时间保留重要的信息。隐藏状态Hidden State每个时间步的输出LSTM 通过它来决定当前的输出和对下一时间步的传递信息。【RNN中就有】三个门控机制Forget Gate、Input Gate、Output Gate通过这些门控机制LSTM 可以选择性地遗忘、存储、或者输出信息具体在图中的结构参考下面具体介绍。 LSTM 中最重要的概念是记忆单元状态和门控机制它们帮助网络在长时间序列中保留重要的历史信息。在 LSTM 中隐藏状态是对当前时间步的即时记忆短期记忆而记忆单元是对整个序列中长期信息的存储长期记忆。遗忘门Forget Gate根据当前输入和前一个时间步的隐藏状态决定记忆单元哪些信息需要被遗忘输入门Input Gate根据当前输入和前一时间步的隐藏状态决定当前时间步输入对记忆单元的影响输出门Output Gate根据当前的输入和前一时间步的隐藏状态以及记忆单元状态决定当前时间步隐藏状态的输出/影响输出内容是从记忆单元中提取的信息 LSTM 的公式和工作原理在 LSTM 中每个时间步 ( t ) 的计算分为以下几步图像参考LSTM长短期记忆网络 (1) 遗忘门Forget Gate 计算公式 f t σ ( W f ⋅ [ h t − 1 , x t ] b f ) f_t\sigma(W_f\cdot[h_{t - 1},x_t]b_f) ftσ(Wf⋅[ht−1,xt]bf) f t f_t ft遗忘门的输出值介于0到1之间表示记忆单元中的每个值需要被保留的比例。 h t − 1 h_{t - 1} ht−1上一时间步的隐藏状态短期记忆。 x t x_t xt当前时间步的输入。 W f W_f Wf、 b f b_f bf遗忘门的权重和偏置。 σ \sigma σsigmoid函数将值限制在0到1之间。遗忘门的作用它根据当前输入和前一个时间步的隐藏状态选择哪些来自过去的记忆单元信息需要被遗忘。 (2) 输入门Input Gate 计算公式 i t σ ( W i ⋅ [ h t − 1 , x t ] b i ) i_t\sigma(W_i\cdot[h_{t - 1},x_t]b_i) itσ(Wi⋅[ht−1,xt]bi) i t i_t it输入门的输出值介于0到1之间表示是否更新记忆单元。 W i W_i Wi、 b i b_i bi输入门的权重和偏置。候选记忆生成 C ~ t tanh ⁡ ( W c ⋅ [ h t − 1 , x t ] b c ) \tilde{C}_t\tanh(W_c\cdot[h_{t - 1},x_t]b_c) C~ttanh(Wc⋅[ht−1,xt]bc) C ~ t \tilde{C}_t C~t候选记忆是根据当前输入生成的新的记忆内容值在 [ − 1 , 1 ] [- 1,1] [−1,1]之间。 W c W_c Wc、 b c b_c bc生成候选记忆的权重和偏置。输入门的作用输入门通过 sigmoid 激活函数决定当前输入 ( x t x_t xt ) 和前一时间步的隐藏状态 ( h t − 1 h_{t-1} ht−1 ) 对记忆单元的影响。结合候选记忆 ( C ~ t \tilde{C}_t C~t)输入门决定是否将当前输入的信息入到记忆单元中。 (3) 更新记忆单元状态记忆单元状态更新公式 C t f t ∗ C t − 1 i t ∗ C ~ t C_tf_t*C_{t - 1}i_t*\tilde{C}_t Ctft∗Ct−1it∗C~t f t ∗ C t − 1 f_t*C_{t - 1} ft∗Ct−1遗忘门决定了哪些来自前一时间步的记忆单元信息被保留。 i t ∗ C ~ t i_t*\tilde{C}_t it∗C~t输入门决定了新的候选记忆 C ~ t \tilde{C}_t C~t需要被加入到记忆单元中的比例。记忆单元的作用记忆单元 ( C t C_t Ct ) 根据遗忘门和输入门的输出保留了来自过去的长期信息使得重要的历史信息能够长时间存储。 (4) 输出门Output Gate 输出门控制从记忆单元中提取多少信息作为当前时间步的隐藏状态 h t h_t ht 并输出。计算公式 o t σ ( W o ⋅ [ h t − 1 , x t ] b o ) o_t\sigma(W_o\cdot[h_{t - 1},x_t]b_o) otσ(Wo⋅[ht−1,xt]bo) o t o_t ot输出门的输出决定隐藏状态的输出比例。 W o W_o Wo、 b o b_o bo输出门的权重和偏置。生成当前隐藏状态 h t o t ∗ tanh ⁡ ( C t ) h_to_t*\tanh(C_t) htot∗tanh(Ct) tanh ⁡ ( C t ) \tanh(C_t) tanh(Ct)对当前的记忆单元状态 C t C_t Ct进行非线性变换生成当前时间步的隐藏状态。输出门 o t o_t ot决定了多少信息从记忆单元状态 C t C_t Ct中提取并输出为当前时间步的隐藏状态。输出门的作用输出门根据当前的输入和前一时间步的隐藏状态以及记忆单元状态决定当前的隐藏状态 ( h t h_t ht ) 的值它不仅作为当前时间步的输出还会传递到下一时间步。 LSTM 的流程总结在每个时间步 ( t t t )LSTM 会执行以下步骤遗忘门根据当前输入和前一个时间步的隐藏状态控制哪些来自上一个时间步的记忆单元信息需要被保留或遗忘。输入门根据当前输入和前一时间步的隐藏状态决定当前输入信息是否更新到记忆单元中通过候选记忆生成新的信息。记忆单元状态更新根据遗忘门和输入门的输出更新当前时间步的记忆单元状态 ( C t C_t Ct )。输出门根据当前的输入和记忆单元状态控制当前时间步的隐藏状态 ( h t h_t ht ) 的输出隐藏状态会传递到下一时间步作为当前的输出结果。 LSTM 的优点 LSTM 通过引入门控机制可以选择性地控制信息的流动记忆单元可以有效地保留长期信息避免了传统 RNN 中的梯度消失问题。因此LSTM 能够同时处理短期和长期的依赖关系尤其在需要保留较长时间跨度信息的任务中表现优异。 LSTM 的局限性 LSTM 的门控机制使得它的结构复杂训练时间较长需要更多的计算资源尤其是在处理大规模数据时。依赖于序列数据的时间步信息必须按顺序处理每个时间步难以并行化处理序列数据。热门专栏机器学习机器学习笔记合集深度学习深度学习笔记合集

查看全文

http://www.w-s-a.com/news/547006/