墨星写作网站,企业建站系统还有没有前景可言,泉州关键词搜索排名,rdm响应式网站开发自然语言处理定义
让计算机理解人所说的文本 语音 Imitation Game 图灵测试 行为主义 鸭子理论
自然语言处理的基本任务
词性标注#xff1a;区分每个词名词、动词、形容词等词性命名实体的识别#xff1a;名词的具体指代是哪一类事物共指消解#xff1a;代词指代的是前面…自然语言处理定义
让计算机理解人所说的文本 语音 Imitation Game 图灵测试 行为主义 鸭子理论
自然语言处理的基本任务
词性标注区分每个词名词、动词、形容词等词性命名实体的识别名词的具体指代是哪一类事物共指消解代词指代的是前面哪一个实体句法关系主谓宾这种中文的自动分词标注词和词间的空格
应用
搜索引擎 Search Engines and Ads 文本匹配 查询quary和文档document的相似度 quary和个性化广告 匹配质量知识图谱 knowledge graph 2012Google提出机器阅读 Machine Reading人类助手 Personal Assistant机器翻译 Machine Translation情感分类和意见挖掘 Sentiment Analysis and Opinion Mining计算社会科学 Computational Social Science
基础概念
词表示 Word Representation
- 词相似度
- 词关系用和词有关的一些词来表示当前词 缺点细微差距丢失、 新的词义缺失、 主观性问题、 数据稀疏、 大量人工One-Hot Representation 向量维度 词表长度 缺点增加了相似词之间的距离Represent Word by Context 利用上下文来表示这个词Co-Occurrence Counts 包含了上下文信息上下文出现的频度稠密向量 缺点词表越大存储需求大频度出现少的词上下文出现的就少词表示会变得稀疏因而效果不好深度学习 Word Embedding Word2Vec 词向量 将词汇投射到低维空间
语言模型
主要完成两个工作 联合概率计算一个序列的词成为一句话的概率是多少一句话人能读懂的概率 条件概率根据前面的词预测下一个词
传统语言模型的基本假设
一个未来的词只会受到前面的词的影响
N-gram Model
前面出现N - 1个词第N个词的概率是多少 问题很少考虑长前文统计是稀疏的还是One-Hot编码每个词是一个符号
Neural Language Model
神经网络模型 每个词表示为一个低维的向量
大模型范式
预训练无标注、自监督 微调
四大步骤
预训练-监督式微调-奖励建模-强化学习 预训练占算例99%以上 问答对1w-10w 奖励建模和强化学习基于人类反馈的强化学习RLHF