服务好的微网站建设,河北专业做网站,新手怎么做自己网站广告,做网站分为哪些功能的网站简介
词向量是用于表示单词意义的向量#xff0c; 并且还可以被认为是单词的特征向量或表示。 将单词映射到实向量的技术称为词嵌入。在实际应用中#xff0c;词向量和词嵌入这两个重要的NLP术语通常可以互换使用。它们都表示将词汇表中的单词映射到固定大小的连续向量空间中…简介
词向量是用于表示单词意义的向量 并且还可以被认为是单词的特征向量或表示。 将单词映射到实向量的技术称为词嵌入。在实际应用中词向量和词嵌入这两个重要的NLP术语通常可以互换使用。它们都表示将词汇表中的单词映射到固定大小的连续向量空间中的过程。这些向量可以捕捉词汇的语义信息。 词向量
词向量Word Vector是一种将词语表示为向量的方式其核心思想是把词语映射到一个连续的向量空间中每个词都对应空间中的一个点向量通过向量之间的运算如距离计算、相似度计算等来反映词语之间的语义关系。常见的方式包括
One-Hot编码独热 为词汇表中的每个词分配一个唯一的整数索引然后将每个词表示为一个长度等于词汇表大小的向量向量中只有对应索引位置的值为 1其余位置为 0。例如词汇表为 [苹果, 香蕉, 橙子]“苹果” 的独热编码向量为 [1, 0, 0]。这种表示方法简单直接但存在维度高、无法表示词之间语义关系等缺点。词袋模型Bag-of-Words, BoWTF-IDF词嵌入Word Embedding
作用
语义表示能够捕捉词语的语义信息使得语义相近的词在向量空间中距离较近。例如“苹果” 和 “香蕉” 在语义上都属于水果类别它们的词向量在空间中会相对靠近。作为模型输入方便计算机对文本进行处理可用于各种自然语言处理任务如文本分类、情感分析、机器翻译等。
词嵌入Word Embedding
词嵌入是一种低维、密集的词向量表示方法它能够捕捉单词之间的语义关系和上下文信息。词嵌入通常是从大规模文本语料库中通过机器学习训练得到的。这个术语通常用于描述将词映射到向量空间的过程或表示方法。它通常包括训练算法和生成的词向量空间。例如我们可以说“我们使用Word2Vec算法来生成词嵌入”。
主要方法 Word2VecGoogle, 2013 CBOWContinuous Bag of Words根据上下文预测中心词。Skip-gram根据中心词预测上下文词。词向量能学习到“王子-男人女人≈公主”这样的关系。 GloVeGlobal Vectors for Word RepresentationStanford, 2014 结合全局统计信息计算词的共现矩阵然后通过矩阵分解得到词向量。适用于捕捉更广泛的语义信息。 FastTextFacebook, 2016 将单词拆分成多个子词如apple→[ap, pp, pl, le]。能够更好地处理未见过的新词OOV, Out-of-Vocabulary。 BERTGoogle, 2018 和 ELMo 采用深度神经网络Transformer / LSTM结合上下文语境生成动态词向量。BERT能捕捉单词在不同句子中的不同含义例如“银行”在“去银行存钱”和“河岸边的风景”中的区别。
词嵌入的应用
自然语言处理NLP机器翻译、情感分析、文本分类等。搜索引擎提升查询理解能力。推荐系统基于文本的个性化推荐如新闻推荐。聊天机器人让AI更好地理解用户输入。
Word2Vec基于上下文学习单词的词向量模型
1、概念
Word2Vec 是一种基于神经网络的词向量训练方法由 Google 在 2013年 提出能够将单词映射到一个低维稠密向量Dense Vector并且可以捕捉单词之间的语义关系。
Word2Vec 训练出的词向量可以进行数学运算例如 “国王” - “男人” “女人” ≈ “王后” 它比传统的 One-Hot 编码、TF-IDF 更紧凑并且能学习到单词的语义信息。
2、原理
Word2Vec 基于分布式假设即上下文相似的词其语义也相似。它的核心思想是通过在大规模文本语料上进行训练学习词语的上下文信息从而将每个词语表示为一个固定长度的向量。在这个向量空间中语义相近的词语对应的向量在空间上也比较接近。
Word2Vec通过训练一个神经网络模型来学习词嵌入模型的任务就是基于给定的上下文词来预测目标词或者基于目标词来预测上下文词。
3、训练模型
Word2Vec 主要有两种训练模型连续词袋模型CBOW和跳字模型Skip - Gram。
连续词袋模型CBOW 原理根据上下文词来预测目标词。例如在句子 “The dog chased the cat” 中如果上下文窗口大小设为 2对于目标词 “chased”上下文词就是 “The”、“dog”、“the”、“cat”。模型的任务就是根据这些上下文词预测出 “chased”。结构CBOW 模型包含输入层、隐藏层和输出层。输入层是上下文词的独热编码向量隐藏层通常是线性变换输出层是一个 softmax 函数用于计算每个词作为目标词的概率。 跳字模型Skip - Gram 原理与 CBOW 相反它根据目标词来预测上下文词。同样以上述句子为例以 “chased” 为目标词模型要预测出它的上下文词 “The”、“dog”、“the”、“cat”。结构Skip - Gram 模型的结构与 CBOW 类似但输入层是目标词的独热编码向量输出层要预测多个上下文词的概率。
4、Word2Vec 的应用 搜索引擎提升关键词检索能力 推荐系统新闻推荐、商品推荐 情感分析用于理解文本情绪 机器翻译提升翻译质量 聊天机器人让 AI 更好地理解用户输入
5、Word2Vec 的局限性
❌ 无法处理 OOVOut-Of-Vocabulary新词如果词汇表中没有某个单词就无法表示它。 ❌ 忽略单词顺序Word2Vec 仅考虑局部上下文无法捕捉完整句意BERT 解决了这个问题。 ❌ 计算资源消耗大在大规模数据集上训练需要较长时间。 6、Word2Vec vs. 其他词向量方法
方法维度是否有语义计算量适用场景One-Hot高10万❌ 没有低传统文本分类TF-IDF高❌ 没有中文档检索Word2Vec低50-300✅ 有中等NLP 任务BERT低768✅ 动态语义高机器阅读理解