徐州市做网站,宜家在线设计,南宁专业做网站方案,短链接生成器免费下载自然语言处理初期发展历程
早期#xff1a;离散表示 one-hot#xff08;只表达“有/无”#xff0c;语义完全丢失#xff09;→ n-gram#xff08;局部上下文#xff0c;但高维稀疏#xff09;→ TF-IDF#xff08;考虑词频与权重#xff0c;但不能表达词关联#x…自然语言处理初期发展历程
早期离散表示 one-hot只表达“有/无”语义完全丢失→ n-gram局部上下文但高维稀疏→ TF-IDF考虑词频与权重但不能表达词关联可见缺点非常明显达不到要求
过渡分布式思想萌芽 LSA等降维尝试引入“词语义空间”思想但非神经网络。 突破神经网络分布式表示
NNLM深度学习自动学语义嵌入训练慢 word2vec极大提高训练效率与质量催生“词嵌入”大潮流
主流趋势 低维、稠密、有语义的词向量成为自然语言理解基础后续BERT等“上下文相关词向量”技术是word2vec之后更高阶的语义学习。 理念从“词级one-hot”→“全局加权”→“上下文分布”→“深度学习自学表示”。
小结 one-hot、n-gram、TF-IDF简单直观但稀疏、高维、语义弱。 分布式表示、NNLM、word2vec低维稠密语义能力强推动深度学习NLP大发展。 从one-hot到word2vec是NLP词表示从“人工特征”到“自动语义学习”的质变。
发展过程中案例展示
一,one-hot
基本的语意: 对文本的表示: 优缺点: 二、TF-IDF
基础公式描述 公式表达: 优缺点分析 三、N-gram
基础语法表达: 优缺点: 语言模型: 离散表示: 四、分布式
表示方法表示: 优缺点: 共现矩阵的表达方式
表达方式: 表达案例: 优缺点: 公式展现 实现代码 技术实现优缺点: 五、NNLAM
样本案例: 公式: 优缺点: 六、word2vec
案例和算法图 二次方的概率: PCA实现二维可视化 优缺点