请问聊城做网站,公司宣传片制作公司,广州做网站系统,网站建设价格标准报价表示的基本原理#xff1a;
机器无法理解文字#xff0c;却能进行复杂的数学运算——神经网络只要够深、够复杂#xff0c;就能拟合足够复杂的数学模式。把文字嵌入#xff08;embed#xff09;到一个向量空间中去。
词表示#xff08;Word Representation#xff09;…表示的基本原理
机器无法理解文字却能进行复杂的数学运算——神经网络只要够深、够复杂就能拟合足够复杂的数学模式。把文字嵌入embed到一个向量空间中去。
词表示Word Representation分为4代
1.独热One hot编码
基本原理
假设中文字典有n个词元那么第ii1,2,3,...,n个词元的编码为一个长度为n的向量它的第i位为1其他为0。独热编码实现了对文本的向量化嵌入。
问题
第一向量的维度太长了文本的表示过于稀疏
第二词向量与词向量之间完全正交不具有相关性。 2.词频-逆文档词频Term Frequency-Inverse Term Frequency, TF-IDF
根据Zipfs Law在给定的自然语言语料库中任何一个词的频率与它在频率表中的排名成反比。
3.语境无关Context-free/Non-contextual的词表示Word2vec
它对每一个词生成一个相同的词表示不考虑同一个词在不同语境下含义的差别。
连续词袋法
用一个浅层神经网络依次遮住句子中的每一个词然后用它的上下文来预测它
跳元法
我们用一个k元词组来预测它的上下文
自监督预训练:
通过“破坏”句子的一部分让模型预测它从而实现对词的更精确的表示.
4.语境相关Context-dependent/Contextual的词表示BERT
语言的多义性是人类自然语言的重要特点。 BERT考虑了三层嵌入词嵌入、位置嵌入词在句子中的位置和句子嵌入并把它们加起来作为最后的嵌入表示。
BERT使用WordPiece分词器tokenizer借鉴了自监督训练的思想在两个任务上进行预训练下句预测Next Sentence Prediction和掩码语言建模Masked Language Modeling。
下句预测是一个二分类任务给定一个句子判定另一个句子是否是它的下一句
掩码语言建模任务随机掩盖其中15%的单词并训练模型来预测被掩盖的单词为了预测被掩盖的单词模型从两个方向阅读该句并进行预测。