当前位置：首页 > news >正文

h5婚纱摄影网站模板wordpress 显示下列项目

news 2026/7/28 5:45:55

h5婚纱摄影网站模板,wordpress 显示下列项目,wordpress首页不显示该分类下文章,免费影视网站建设目录技术交流群 1、命名实体识别常见面试篇2、关系抽取常见面试篇3、事件抽取常见面试篇4、NLP 预训练算法常见面试篇5、Bert 常见面试篇6、文本分类常见面试篇7、文本匹配常见面试篇8、问答系统常见面试篇FAQ 检索式问答系统常见面试篇问答系统工具篇常见面试篇 9、对话系… 目录技术交流群 1、命名实体识别常见面试篇2、关系抽取常见面试篇3、事件抽取常见面试篇4、NLP 预训练算法常见面试篇5、Bert 常见面试篇6、文本分类常见面试篇7、文本匹配常见面试篇8、问答系统常见面试篇FAQ 检索式问答系统常见面试篇问答系统工具篇常见面试篇 9、对话系统常见面试篇10、知识图谱常见面试篇知识图谱常见面试篇KBQA 常见面试篇Neo4j 常见面试篇 11、文本摘要常见面试篇文本纠错篇-常见面试篇文本摘要-常见面试篇 12、文本生成常见面试篇13、深度学习算法篇常见面试篇14、Transformer 常见面试篇15、NLP 技巧面数据增强EDA 面试篇主动学习面试篇数据增强之对抗训练面试篇脏数据处理面试篇batch\_size设置面试篇早停法 EarlyStopping 面试篇标签平滑法 LabelSmoothing 面试篇bert-trick-面试篇Bert 未登录词处理面试篇BERT在输入层引入额外特征面试篇关于BERT 继续预训练面试篇BERT如何处理篇章级长文本面试篇 16、Prompt Tuning 面试篇Prompt 面试篇Prompt 文本生成面试篇LoRA 面试篇PEFT面试篇 17、LLMs 面试篇现在达模型LLM微调方式有哪些各有什么优缺点GLMChatGLM的基座模型常见面试题 18、基础算法常见面试篇19、机器学习算法篇常见面试篇20、关于 Python 技术交流群建立了算法技术交流群完整版算法面试资料期望技术交流的同学都可以加微信号mlc2060获取。加的时候备注一下研究方向学校/公司或者来意。技术交流群涉及前沿技术资讯、算法交流、求职内推、算法竞赛、面试交流(校招、社招、实习)等你将与 10000来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~ 1、命名实体识别常见面试篇隐马尔科夫算法 HMM 常见面试篇一、基础信息介绍篇 1.1 什么是概率图模型1.2 什么是随机场二、马尔可夫过程介绍篇 2.1 什么是马尔可夫过程2.2 马尔可夫过程的核心思想是什么三、隐马尔科夫算法篇 3.1 隐马尔科夫算法介绍篇 3.1.1 隐马尔科夫算法是什么3.1.2 隐马尔科夫算法中两个序列是什么3.1.3 隐马尔科夫算法中三个矩阵是什么3.1.4 隐马尔科夫算法中两个假设是什么3.1.5 隐马尔科夫算法中工作流程是什么 3.2 隐马尔科夫算法模型计算过程篇 3.2.1 隐马尔科夫算法学习训练过程是什么样的3.2.2 隐马尔科夫算法序列标注解码过程是什么样的3.2.3 隐马尔科夫算法序列概率过程是什么样的 3.3 隐马尔科夫算法问题篇最大熵马尔科夫模型 MEMM 常见面试篇四、最大熵马尔科夫模型MEMM篇 4.1 最大熵马尔科夫模型MEMM动机篇 4.1.1 HMM 存在什么问题 4.2 最大熵马尔科夫模型MEMM介绍篇 4.2.1 最大熵马尔科夫模型MEMM 是什么样4.2.2 最大熵马尔科夫模型MEMM 如何解决 HMM 问题 4.3 最大熵马尔科夫模型MEMM问题篇条件随机场CRF 常见面试篇五、条件随机场CRF篇 5.1 CRF 动机篇 5.1.1 HMM 和 MEMM 存在什么问题 5.2 CRF 介绍篇 5.2.1 什么是 CRF?5.2.2 CRF 的主要思想是什么5.2.3 CRF 的定义是什么?5.2.4 CRF 的流程是什么 5.3 CRF 优缺点篇 5.3.1 CRF 的优点在哪里5.3.2 CRF 的缺点在哪里 5.4 CRF 复现六、对比篇 6.1 CRF模型和 HMM和MEMM模型区别 DNN-CRF 常见面试篇一、基本信息 1.1 命名实体识别评价指标是什么二、传统的命名实体识别方法 2.1 基于规则的命名实体识别方法是什么2.2 基于无监督学习的命名实体识别方法是什么2.3 基于特征的监督学习的命名实体识别方法是什么三、基于深度学习的命名实体识别方法 3.1 基于深度学习的命名实体识别方法相比于基于机器学习的命名实体识别方法的优点3.2 基于深度学习的命名实体识别方法的结构是怎么样3.3 分布式输入层是什么有哪些方法3.4 文本编码器篇 3.4.1 BiLSTM-CRF 篇 3.4.1.1 什么是 BiLSTM-CRF3.4.1.2 为什么要用 BiLSTM 3.4.2 IDCNN-CRF 篇 3.4.2.1 什么是 Dilated CNN3.4.2.2 为什么会有 Dilated CNN3.4.2.3 Dilated CNN 的优点3.4.2.4 IDCNN-CRF 介绍 3.5 标签解码器篇 3.5.1 标签解码器是什么3.5.2 MLPsoftmax层介绍3.5.3 条件随机场CRF层介绍3.5.4 循环神经网络RNN层介绍3.5.3 指针网路层介绍四、对比篇 4.1 CNN-CRF vs BiLSTM-CRF vs IDCNN-CRF?4.2 为什么 DNN 后面要加 CRF?4.3 CRF in TensorFlow V.S. CRF in discrete toolkit 中文领域 NER 常见面试篇一、动机篇 1.1 中文命名实体识别与英文命名实体识别的区别二、词汇增强篇 2.1 什么是词汇增强2.2 为什么说「词汇增强」方法对于中文 NER 任务有效呢2.3 词汇增强方法有哪些2.4 Dynamic Architecture 2.4.1 什么是 Dynamic Architecture2.4.2 常用方法有哪些2.4.3 什么是 Lattice LSTM 存在什么问题2.4.4 什么是 FLAT 存在什么问题 2.5 Adaptive Embedding 范式 2.5.1 什么是 Adaptive Embedding 范式2.5.2 常用方法有哪些2.5.3 什么是 WC-LSTM 存在什么问题三、词汇/实体类型信息增强篇 3.1 什么是词汇/实体类型信息增强3.2 为什么说「词汇/实体类型信息增强」方法对于中文 NER 任务有效呢3.3 词汇/实体类型信息增强方法有哪些3.4 什么是 LEX-BERT 命名实体识别 trick 常见面试篇 trick 1领域词典匹配trick 2规则抽取trick 3词向量选取词向量 or 字向量trick 4特征提取器如何选择trick 5专有名称怎么处理trick 6标注数据不足怎么处理trick 7嵌套命名实体识别怎么处理 7.1 什么是实体嵌套7.2 与传统命名实体识别任务的区别7.3 解决方法 7.3.1 方法一序列标注7.3.2 方法二指针标注7.3.3 方法三多头标注7.3.4 方法四片段排列 trick 8为什么说「词汇增强」方法对于中文 NER 任务有效trick 9NER实体span过长怎么办trick 10: NER 标注数据噪声问题trick 11 给定两个命名实体识别任务一个任务数据量足够另外一个数据量很少可以怎么做trick 12 NER 标注数据不均衡问题 2、关系抽取常见面试篇关系抽取常见面试篇一、动机篇 1.1 什么是关系抽取1.2 关系抽取技术有哪些类型1.3 常见的关系抽取流程是怎么做的二、经典关系抽取篇 2.1 模板匹配方法是指什么有什么优缺点2.2 远监督关系抽取是指什么它有什么优缺点2.3 什么是关系重叠复杂关系问题2.4 联合抽取是什么难点在哪里2.5 联合抽取总体上有哪些方法各有哪些缺点2.6 介绍基于共享参数的联合抽取方法2.7 介绍基于联合解码的联合抽取方法2.8 实体关系抽取的前沿技术和挑战有哪些如何解决低资源和复杂样本下的实体关系抽取三、文档级关系抽取篇 3.1 文档级关系抽取与经典关系抽取有何区别3.2 文档级别关系抽取中面临什么样的问题3.3 文档级关系抽取的方法有哪些 3.3.1 基于BERT-like的文档关系抽取是怎么做的3.3.2 基于graph的文档关系抽取是怎么做的 3.4 文档级关系抽取常见数据集有哪些以及其评估方法 3、事件抽取常见面试篇事件抽取常见面试篇一、原理篇 1.1 什么是事件1.2 什么是事件抽取1.3 ACE测评中事件抽取涉及的几个基本术语及任务是什么1.4 事件抽取怎么发展的1.5 事件抽取存在什么问题二、基本任务篇 2.1 触发词检测 2.1.1 什么是触发词检测2.1.2 触发词检测有哪些方法 2.2 类型识别 2.2.1 什么是类型识别2.2.2 类型识别有哪些方法 2.3 角色识别 2.3.1 什么是角色识别2.3.2 角色识别有哪些方法 2.4 论元检测 2.4.1 什么是论元检测2.4.2 论元检测有哪些方法三、常见方法篇 3.1 模式匹配方法怎么用在事件抽取中?3.2 统计机器学习方法怎么用在事件抽取中?3.3 深度学习方法怎么用在事件抽取中? 四、数据集及评价指标篇 4.1 事件抽取中常见的英文数据集有哪些4.2 事件抽取中常见的中文数据集有哪些4.3 事件抽取的评价指标是什么怎么计算的五、对比篇 5.1 事件抽取和命名实体识别即实体抽取有什么异同5.2 事件抽取和关系抽取有什么异同5.3 什么是事理图谱有哪些事件关系类型事理图谱怎么构建主要技术领域及当前发展热点是什么六、应用篇七、拓展篇 7.1 事件抽取论文综述7.2 事件抽取常见问题 4、NLP 预训练算法常见面试篇关于TF-idf 一、one-hot 篇 1.1 为什么有 one-hot 1.2 one-hot 是什么?1.3 one-hot 有什么特点?1.4 one-hot 存在哪些问题? 二、TF-IDF 篇 2.1 什么是 TF-IDF2.2 TF-IDF 如何评估词的重要程度2.3 TF-IDF 的思想是什么2.4 TF-IDF 的计算公式是什么2.5 TF-IDF 怎么描述2.6 TF-IDF 的优点是什么2.7 TF-IDF 的缺点是什么2.8 TF-IDF 的应用关于word2vec 一、Wordvec 介绍篇 1.1 Wordvec 指什么?1.2 Wordvec 中 CBOW 指什么?1.3 Wordvec 中 Skip-gram 指什么?1.4 CBOW vs Skip-gram 哪一个好二、Wordvec 优化篇 2.1 Word2vec 中霍夫曼树是什么2.2 Word2vec 中为什么要使用霍夫曼树2.3 Word2vec 中使用霍夫曼树的好处2.4 为什么 Word2vec 中会用到负采样2.5 Word2vec 中会用到负采样是什么样2.6 Word2vec 中负采样的采样方式三、Wordvec 对比篇 3.1 word2vec和NNLM对比有什么区别word2vec vs NNLM3.2 word2vec和tf-idf 在相似度计算时的区别四、word2vec 实战篇 4.1 word2vec训练trickwindow设置多大4.1 word2vec训练trick词向量纬度大与小有什么影响还有其他参数关于FastText 一、fastText 动机篇 1.1 word-level Model 是什么1.2 word-level Model 存在什么问题1.3 Character-Level Model 是什么1.4 Character-Level Model 优点1.5 Character-Level Model 存在问题1.6 Character-Level Model 问题的解决方法二、词内的n-gram信息(subword n-gram information) 介绍篇 2.1 引言2.2 fastText 是什么?2.3 fastText 的结构是什么样?2.4 为什么 fastText 要使用词内的n-gram信息(subword n-gram information)?2.5 fastText 词内的n-gram信息(subword n-gram information) 介绍?2.6 fastText 词内的n-gram信息的训练过程?2.7 fastText 词内的n-gram信息存在问题? 三、层次化Softmax回归(Hierarchical Softmax) 介绍篇 3.1 为什么要用层次化Softmax回归(Hierarchical Softmax) 3.2 层次化Softmax回归(Hierarchical Softmax) 的思想是什么3.3 层次化Softmax回归(Hierarchical Softmax) 的步骤四、fastText 存在问题关于Elmo 一、Elmo 动机篇 1.1 为什么会有 Elmo 二、Elmo 介绍篇 2.1 Elmo 的特点2.2 Elmo 的思想是什么三、Elmo 问题篇 3.1 Elmo 存在的问题是什么 5、Bert 常见面试篇 Bert 常见面试篇一、动机篇 1.1 【演变史】one-hot 存在问题?1.2【演变史】wordvec 存在问题?1.3【演变史】fastText 存在问题?1.4【演变史】elmo 存在问题? 二、Bert 篇 2.1 Bert 介绍篇 2.1.1【BERT】Bert 是什么?2.1.2【BERT】Bert 三个关键点 2.2 Bert 输入输出表征篇 2.2.1 【BERT】Bert 输入输出表征长啥样 2.3 【BERT】Bert 预训练篇 2.3.1 【BERT】Bert 预训练任务介绍2.3.2 【BERT】Bert 预训练任务之 Masked LM 篇 2.3.2.1 【BERT】 Bert 为什么需要预训练任务 Masked LM 2.3.2.2 【BERT】 Bert 预训练任务 Masked LM 怎么做2.3.2.3 【BERT】 Bert 预训练任务 Masked LM 存在问题2.3.2.4 【BERT】预训练和微调之间的不匹配的解决方法 2.3.3 【BERT】Bert 预训练任务之 Next Sentence Prediction 篇 2.3.3.1 【BERT】Bert 为什么需要预训练任务 Next Sentence Prediction 2.3.3.2 【BERT】 Bert 预训练任务 Next Sentence Prediction 怎么做 2.4 【BERT】 fine-turning 篇 2.4.1 【BERT】为什么 Bert 需要 fine-turning2.4.2 【BERT】 Bert 如何 fine-turning 2.5 【BERT】 Bert 损失函数篇 2.5.1 【BERT】BERT的两个预训练任务对应的损失函数是什么(用公式形式展示) 三、对比篇 3.1 【对比】多义词问题是什么3.2 【对比】word2vec 为什么解决不了多义词问题3.3 【对比】GPT和BERT有什么不同3.4 【对比】为什么 elmo、GPT、Bert能够解决多义词问题以 elmo 为例 Bert 模型压缩常见面试篇 Bert 模型压缩常见面试篇一、Bert 模型压缩动机篇二、Bert 模型压缩对比表三、 Bert 模型压缩方法介绍 3.1 Bert 模型压缩方法之低秩因式分解跨层参数共享 3.1.1 什么是低秩因式分解3.1.2 什么是跨层参数共享3.1.3 ALBERT 所所用的方法 3.2 Bert 模型压缩方法之蒸馏 3.2.1 什么是蒸馏3.2.2 使用模型蒸馏的论文有哪些稍微介绍一下 3.3 Bert 模型压缩方法之量化 3.3.1 什么是量化3.3.2 Q-BERT: Hessian Based Ultra Low Precision Quantization of BERT 【量化】 3.4 Bert 模型压缩方法之剪枝 3.4.1 什么是剪枝四、模型压缩存在问题 6、文本分类常见面试篇文本分类常见面试篇一、抽象命题 1.1 分类任务有哪些类别它们都有什么特征1.2 文本分类任务相较于其他领域的分类任务有何不同之处1.3 文本分类任务和文本领域的其他任务相比有何不同之处1.4 文本分类的过程二、数据预处理 2.1 文本分类任务的数据预处理方法有哪些2.2 你使用过哪些分词方法和工具2.3 中文文本分词的方法2.4 基于字符串匹配的分词方法的原理是什么2.5 统计语言模型如何应用于分词N-gram最大概率分词2.6 基于序列标注的分词方法是什么2.7 基于(Bi-)LSTM的词性标注是什么2.8 词干提取和词形还原有什么区别三、特征提取 3.1 一个具体的文本分类任务可以使用哪些特征3.2 对于西文文本使用单词和使用字母作为特征相比差异如何3.3 能不能简单介绍下词袋模型3.4 n-gram 篇 3.4.1 什么是n元语法为什么要用n-gram3.4.2 n-gram算法的局限性是什么 3.5 主题建模篇 3.5.1 介绍一下主题建模任务3.5.2 主题建模的常用方法3.5.3 TF-IDF算法是做什么的简单介绍下TF-IDF算法3.5.4 tf-idf高意味着什么3.5.5 tf-idf的不足之处 3.6 文本相似度篇 3.6.1 如何计算两段文本之间的距离3.6.2 什么是jaccard距离3.6.3 Dice系数和Jaccard系数的区别3.6.4 同样是编辑距离莱文斯坦距离和汉明距离的区别在哪里3.6.5 写一下计算编辑距离莱温斯坦距离的编程题吧四、模型篇 4.1 fastText 篇 4.1.1 fastText的分类过程4.1.2 fastText的优点 4.2 TextCNN 篇 4.2.1 TextCNN进行文本分类的过程?4.2.2 TextCNN可以调整哪些参数4.2.3 使用CNN作为文本分类器时不同通道channels对应着文本的什么信息4.2.4 TextCNN中卷积核的长与宽代表了什么4.2.5 在TextCNN中的pooling操作与一般CNN的pooling操作有何不同4.2.6 TextCNN的局限性 4.3 DPCNN 篇 4.3.1 如何解决长文本分类任务4.3.2 简单介绍DPCNN模型相较于TextCNN的改进 4.4 TextRCNN 篇 4.4.1 简要介绍TextRCNN相较于TextCNN的改进 4.5 RNNAttention 篇 4.5.1 RNNAttention进行文本分类任务的思路以及为什么要加Attention / 注意力机制如何应用于文本分类领域 4.6 GNN 图神经网络篇 4.6.1 GNN 图神经网络如何应用于文本分类领域 4.7 Transformer 篇 4.7.1 基于Transformer的预训练模型如何应用于文本分类领域 4.8 预训练模型篇 4.8.1 你了解哪些预训练模型它们的特点是什么五、损失函数 5.1 激活函数sigmoid篇 5.1.1 二分类问题使用的激活函数sigmoid简介5.1.2 Sigmod的缺点是什么 5.2 激活函数softmax篇 5.2.1 softmax函数是什么5.2.2 softmax函数怎么求导 5.3 分类问题使用的损失函数还有有哪些六、模型评估和算法比较 6.1 文本分类任务使用的评估算法和指标有哪些6.2 简单介绍混淆矩阵和kappa 文本分类 trick 常见面试篇一、文本分类数据预处理如何做二、文本分类预训练模型如何选择三、文本分类参数如何优化四、文本分类有哪些棘手任务五、文本分类标签体系构建六、文本分类策略构建用检索的方式做文本分类常见面试篇为什么需要用检索的方式做文本分类基于检索的方法做文本分类思路检索的方法的召回库如何构建检索的方法的训练阶段如何做检索的方法的预测阶段如何做用检索的方式做文本分类方法适用场景有哪些 7、文本匹配常见面试篇文本匹配模型 ESIM 常见面试篇为什么需要 ESIM介绍一下 ESIM 模型语义相似度匹配任务中的 BERT 常见面试篇一、Sentence Pair Classification Task使用 CLS二、cosine similairity三、长短文本的区别四、sentence/word embedding五、siamese network 方式 8、问答系统常见面试篇 FAQ 检索式问答系统常见面试篇一、动机 1.1 问答系统的动机1.2 问答系统是什么二、FAQ 检索式问答系统介绍篇 2.1 FAQ 检索式问答系统是什么2.2 query 匹配标准 QA 的核心是什么? 三、FAQ 检索式问答系统方案篇 3.1 常用方案有哪些3.2 为什么 QQ 匹配比较常用 3.2.1 QQ 匹配的优点有哪些3.2.2 QQ 匹配的语义空间是什么3.2.3 QQ 匹配的语料的稳定性是什么3.2.4 QQ 匹配的业务回答与算法模型的解耦是什么3.2.5 QQ 匹配的新问题发现与去重是什么3.2.6 QQ 匹配的上线运行速度是什么 3.3 QQ 匹配一般处理流程是怎么样【假设标准问题库已处理好】四、FAQ 标准问题库构建篇 4.1 如何发现 FAQ 中标准问题4.2 FAQ 如何做拆分4.3 FAQ 如何做合并4.4 FAQ 标准库如何实时更新五、FAQ 标准问题库答案优化篇 5.1 FAQ 标准问题库答案如何优化问答系统工具篇常见面试篇 Faiss 常见面试篇一、动机篇 1.1 传统的相似度算法所存在的问题二、介绍篇 2.1 什么是 Faiss 2.2 Faiss 如何使用2.3 Faiss原理与核心算法三、Faiss 实战篇 3.1 Faiss 如何安装3.2 Faiss 的索引Index有哪些3.3 Faiss 的索引Index都怎么用 3.3.1 数据预备3.3.2 暴力美学 IndexFlatL23.3.3 闪电侠 IndexIVFFlat3.3.4 内存管家 IndexIVFPQ 3.4 Faiss 然后使用 GPU 四、 Faiss 对比篇 4.1 sklearn cosine_similarity 和 Faiss 哪家强 9、对话系统常见面试篇对话系统常见面试篇一、对话系统介绍篇 1.1 对话系统有哪几种1.2 这几种对话系统的区别二、多轮对话系统介绍篇 2.1 为什么要用多轮对话系统2.2 常见的多轮对话系统解决方案是什么三、任务型对话系统介绍篇 3.1 什么是任务型对话系统3.2 任务型对话系统的流程是怎么样3.3 任务型对话系统语言理解SLU篇 3.3.1 什么是语言理解SLU3.3.2 语言理解SLU的输入输出是什么3.3.3 语言理解SLU所使用的技术是什么 3.4 任务型对话系统 DST对话状态跟踪篇 3.4.1 什么是 DST对话状态跟踪3.4.2 DST对话状态跟踪的输入输出是什么3.4.3 DST对话状态跟踪存在问题和解决方法3.4.4 DST对话状态跟踪实现方式是什么 3.5 任务型对话系统 DPO对话策略学习篇 3.5.1 DPO对话策略学习是什么3.5.2 DPO对话策略学习的输入输出是什么3.5.3 DPO对话策略学习的实现方法是什么 3.6 任务型对话系统 NLG自然语言生成篇 3.6.1 NLG自然语言生成是什么3.6.2 NLG自然语言生成的输入输出是什么3.6.3 NLG自然语言生成的实现方式 10、知识图谱常见面试篇知识图谱常见面试篇一、知识图谱简介 1.1 引言1.2 什么是知识图谱呢 1.2.1 什么是图Graph呢1.2.2 什么是 Schema 呢 1.3 知识图谱的类别有哪些1.4 知识图谱的价值在哪呢二、怎么构建知识图谱呢 2.1 知识图谱的数据来源于哪里2.2 信息抽取的难点在哪里2.3 构建知识图谱所涉及的技术2.4、知识图谱的具体构建技术是什么 2.4.1 实体命名识别Named Entity Recognition2.4.2 关系抽取Relation Extraction2.4.3 实体统一Entity Resolution2.4.4 指代消解Disambiguation 三、知识图谱怎么存储四、知识图谱可以做什么 KBQA 常见面试篇一、基于词典和规则的方法基于词典和规则的方法实现 KBQA?基于词典和规则的方法实现 KBQA 流程? 二、基于信息抽取的方法基于信息抽取的方法实现 KBQA 流程? Neo4j 常见面试篇一、Neo4J 介绍与安装 1.1 引言1.2 Neo4J 怎么下载1.3 Neo4J 怎么安装1.4 Neo4J Web 界面介绍1.5 Cypher查询语言是什么二、Neo4J 增删查改篇 2.1 引言2.2 Neo4j 怎么创建节点2.3 Neo4j 怎么创建关系2.4 Neo4j 怎么创建出生地关系2.5 Neo4j 怎么查询2.6 Neo4j 怎么删除和修改三、如何利用 Python 操作 Neo4j 图数据库 3.1 neo4j模块执行CQL ( cypher ) 语句是什么3.2 py2neo模块是什么四、数据导入 Neo4j 图数据库篇 11、文本摘要常见面试篇一、动机篇 1.1 什么是文本摘要1.2 文本摘要技术有哪些类型二、抽取式摘要篇 2.1 抽取式摘要是怎么做的 2.1.1 句子重要性评估算法有哪些2.1.2 基于约束的摘要生成方法有哪些2.1.3 TextTeaser算法是怎么抽取摘要的2.1.4 TextRank算法是怎么抽取摘要的 2.2 抽取式摘要的可读性问题是什么三、压缩式摘要篇 3.1 压缩式摘要是怎么做的四、生成式摘要篇 4.1 生成式摘要是怎么做的4.2 生成式摘要存在哪些问题4.3 Pointer-generator network解决了什么问题五、摘要质量评估方法 5.1 摘要质量的评估方法有哪些类型5.2 什么是ROUGE5.3 几种ROUGE指标之间的区别是什么5.4 BLEU和ROUGE有什么不同文本纠错篇-常见面试篇一、介绍篇 1.1 什么是文本纠错1.2 常见的文本错误类型1.3 文本纠错常用方法二、pipeline 方法介绍篇 pipeline 中的错误检测如何实现pipeline 中的候选召回如何实现pipeline 中的纠错排序如何实现pipeline 中的 ASR 回显优化如何实现文本摘要-常见面试篇一、动机篇 1.1 什么是文本摘要1.2 文本摘要技术有哪些类型二、抽取式摘要篇 2.1 抽取式摘要是怎么做的 2.1.1 句子重要性评估算法有哪些2.1.2 基于约束的摘要生成方法有哪些2.1.3 TextTeaser算法是怎么抽取摘要的2.1.4 TextRank算法是怎么抽取摘要的 2.2 抽取式摘要的可读性问题是什么三、压缩式摘要篇 3.1 压缩式摘要是怎么做的四、生成式摘要篇 4.1 生成式摘要是怎么做的4.2 生成式摘要存在哪些问题4.3 Pointer-generator network解决了什么问题五、摘要质量评估方法 5.1 摘要质量的评估方法有哪些类型5.2 什么是ROUGE5.3 几种ROUGE指标之间的区别是什么5.4 BLEU和ROUGE有什么不同 12、文本生成常见面试篇生成模型的解码方法常见面试篇什么是生成模型介绍一下基于搜索的解码方法介绍一下基于采样的解码方法 13、深度学习算法篇常见面试篇 CNN 常见面试篇一、动机篇二、CNN 卷积层篇 2.1 卷积层的本质是什么2.2 CNN 卷积层与全连接层的联系2.3 channel的含义是什么三、CNN 池化层篇 3.1 池化层针对区域是什么3.2 池化层的种类有哪些3.3 池化层的作用是什么3.4 池化层反向传播是什么样的3.5 mean pooling 池化层反向传播是什么样的3.6 max pooling 池化层反向传播是什么样的四、CNN 整体篇 4.1 CNN 的流程是什么4.2 CNN 的特点是什么4.3 卷积神经网络为什么会具有平移不变性4.4 卷积神经网络中im2col是如何实现的4.5 CNN 的局限性是什么五、Iterated Dilated CNN 篇 5.1 什么是 Dilated CNN 空洞卷积5.2 什么是 Iterated Dilated CNN 六、反卷积篇 6.1 解释反卷积的原理和用途 RNN 常见面试篇一、RNN 篇 1.2 为什么需要 RNN?1.2 RNN 结构是怎么样的1.3 RNN 前向计算公式1.4 RNN 存在什么问题二、长短时记忆网络(Long Short Term Memory Network, LSTM) 篇 2.1 为什么需要 LSTM?2.2 LSTM 的结构是怎么样的?2.3 LSTM 如何缓解 RNN 梯度消失和梯度爆炸问题?2.3 LSTM 的流程是怎么样的?2.4 LSTM 中激活函数区别?2.5 LSTM的复杂度2.6 LSTM 存在什么问题三、GRU (Gated Recurrent Unit) 3.1 为什么需要 GRU?3.2 GRU 的结构是怎么样的?3.3 GRU 的前向计算?3.4 GRU 与其他 RNN系列模型的区别四、RNN系列模型篇 4.1 RNN系列模型有什么特点 Attention 常见面试篇一、seq2seq 篇 1.1 seq2seq Encoder-Decoder是什么1.2 seq2seq 中的 Encoder 怎么样1.3 seq2seq 中的 Decoder 怎么样1.4 在数学角度上的 seq2seq 你知道么1.5 seq2seq 存在什么问题二、Attention 篇 2.1 什么是 Attention?2.2 为什么引入 Attention机制2.3 Attention 有什么作用2.4 Attention 流程是怎么样步骤一执行encoder (与 seq2seq 一致)步骤二计算对齐系数 a步骤三计算上下文语义向量 C步骤四更新decoder状态步骤五计算输出预测词 2.5 Attention 的应用领域有哪些三、Attention 变体篇 3.1 Soft Attention 是什么3.2 Hard Attention 是什么3.3 Global Attention 是什么3.4 Local Attention 是什么3.5 self-attention 是什么生成对抗网络 GAN 常见面试篇一、动机二、介绍篇 2.1 GAN 的基本思想2.2 GAN 基本介绍 2.2.1 GAN 的基本结构2.2.2 GAN 的基本思想三、训练篇 3.1 生成器介绍3.2 判别器介绍3.3 训练过程3.4 训练所涉及相关理论基础四、总结 14、Transformer 常见面试篇 Transformer 常见面试篇一、动机篇 1.1 为什么要有 Transformer?1.2 Transformer 作用是什么二、整体结构篇 2.1 Transformer 整体结构是怎么样2.2 Transformer-encoder 结构怎么样2.3 Transformer-decoder 结构怎么样? 三、模块篇 3.1 self-attention 模块 3.1.1 传统 attention 是什么?3.1.2 为什么会有self-attention?3.1.3 self-attention 的核心思想是什么?3.1.4 self-attention 的目的是什么?3.1.5 self-attention 的怎么计算的?3.1.6 self-attention 为什么Q和K使用不同的权重矩阵生成为何不能使用同一个值进行自身的点乘3.1.7 为什么采用点积模型的 self-attention 而不采用加性模型3.1.8 Transformer 中在计算 self-attention 时为什么要除以 d3.1.9 self-attention 如何解决长距离依赖问题3.1.10 self-attention 如何并行化 3.2 multi-head attention 模块 3.2.1 multi-head attention 的思路是什么样?3.2.2 multi-head attention 的步骤是什么样?3.2.3 Transformer为何使用多头注意力机制为什么不使用一个头3.2.4 为什么在进行多头注意力的时候需要对每个head进行降维3.2.5 multi-head attention 代码介绍 3.3 位置编码Position encoding模块 3.3.1 为什么要加入位置编码Position encoding 3.3.2 位置编码Position encoding的思路是什么 3.3.3 位置编码Position encoding的作用是什么 3.3.4 位置编码Position encoding的步骤是什么 3.3.5 Position encoding为什么选择相加而不是拼接呢3.3.6 Position encoding和 Position embedding的区别3.3.7 为何17年提出Transformer时采用的是 Position Encoder 而不是Position Embedding而Bert却采用的是 Position Embedding 3.3.8 位置编码Position encoding的代码介绍 3.4 残差模块模块 3.4.1 为什么要加入残差模块 3.5 Layer normalization 模块 3.5.1 为什么要加入 Layer normalization 模块3.5.2 Layer normalization 模块的是什么3.5.3 Batch normalization 和 Layer normalization 的区别3.5.4 Transformer 中为什么要舍弃 Batch normalization 改用 Layer normalization 呢?3.5.5 Layer normalization 模块代码介绍 3.6 Mask 模块 3.6.1 什么是 Mask3.6.2 Transformer 中用到几种 Mask3.6.3 能不能介绍一下 Transformer 中用到几种 Mask 关于 Transformer 问题及改进一、Transformer 问题篇 1.1 既然 Transformer 怎么牛逼是否还存在一些问题二、每个问题的解决方法是什么 2.1 问题一Transformer 不能很好的处理超长输入问题 2.1.1 Transformer 固定了句子长度2.1.2 Transformer 固定了句子长度的目的是什么2.1.3 Transformer 针对该问题的处理方法 2.2 问题二Transformer 方向信息以及相对位置的缺失问题2.3 问题三缺少Recurrent Inductive Bias问题四问题四Transformer是非图灵完备的非图灵完备通俗的理解就是无法解决所有的问题问题五transformer缺少conditional computation问题六transformer 时间复杂度和空间复杂度过大问题 15、NLP 技巧面数据增强EDA 面试篇一、动机篇 1.1 什么是数据增强1.2 为什么需要数据增强二、常见的数据增强方法篇 2.1 词汇替换篇 2.1.1 什么是基于词典的替换方法2.1.2 什么是基于词向量的替换方法2.1.3 什么是基于 MLM 的替换方法2.1.4 什么是基于 TF-IDF 的词替换 2.2 词汇插入篇 2.2.1 什么是随机插入法 2.3 词汇交换篇 2.3.1 什么是随机交换法 2.4 词汇删除篇 2.4.1 什么是随机删除法 2.5 回译篇 2.5.1 什么是回译法 2.6 交叉增强篇 2.6.1 什么是交叉增强篇 2.7 语法树篇 2.7.1 什么是语法树操作 2.8 对抗增强篇 2.8.1 什么是对抗增强主动学习面试篇一、动机篇 1.1 主动学习是什么1.2 为什么需要主动学习二、主动学习篇 2.1 主动学习的思路是什么2.2 主动学习方法的价值点在哪里三、样本选取策略篇 3.1 以未标记样本的获取方式的差别进行划分3.2 测试集内选取“信息”量最大的数据标记 3.2.1 测试集内选取“信息”量最大的数据标记3.2.2 依赖不确定度的样本选取策略Uncertainty Sampling, US3.2.3 基于委员会查询的方法Query-By-CommitteeQBC 数据增强之对抗训练面试篇一、介绍篇 1.1 什么是对抗训练 1.2 为什么对抗训练能够提高模型效果1.3 对抗训练有什么特点1.4 对抗训练的作用? 二、概念篇 2.1 对抗训练的基本概念?2.2 如何计算扰动?2.3 如何优化? 三、实战篇 3.1 NLP 中经典对抗训练之 Fast Gradient MethodFGM3.2 NLP 中经典对抗训练之 Projected Gradient DescentPGD 脏数据处理面试篇一、动机 1.1 何为“脏数据”1.2 “脏数据” 会带来什么后果二、“脏数据” 处理篇 2.1 “脏数据” 怎么处理呢2.2 置信学习方法篇 2.2.1 什么是置信学习方法2.2.2 置信学习方法优点2.2.3 置信学习方法怎么做2.2.4 置信学习方法怎么用有什么开源框架2.2.5 置信学习方法的工作原理 batch_size设置面试篇一、训练模型时batch_size的设置学习率的设置? 早停法 EarlyStopping 面试篇一、为什么要用早停法 EarlyStopping二、早停法 EarlyStopping 是什么三、早停法 torch 版本怎么实现标签平滑法 LabelSmoothing 面试篇一、为什么要有标签平滑法 LabelSmoothing二、标签平滑法是什么三、标签平滑法 torch 怎么复现 bert-trick-面试篇 Bert 未登录词处理面试篇什么是 Bert 未登录词Bert 未登录词如何处理Bert 未登录词各种处理方法有哪些优缺点 BERT在输入层引入额外特征面试篇 BERT在输入层如何引入额外特征关于BERT 继续预训练面试篇什么是继续预训练为什么会存在【数据分布/领域差异】大问题如何进行继续预训练还有哪些待解决问题训练数据问题解决方案知识缺乏问题解决方案知识理解缺乏问题解决方案 BERT如何处理篇章级长文本面试篇为什么 Bert 不能处理长文本BERT 有哪些处理篇章级长文本? 16、Prompt Tuning 面试篇 Prompt 面试篇什么是prompt如何设计promptprompt进阶——如何自动学习promptPrompt 有哪些关键要点Prompt 如何实现 Prompt 文本生成面试篇 Prompt之文本生成评估手段有哪些Prompt文本生成具体任务有哪些 LoRA 面试篇什么是loralora 是怎么做的呢lora 为什么可以这样做用一句话描述 loralora 优点是什么lora 缺点是什么lora 如何实现 PEFT面试篇一、微调 Fine-tuning 篇 1.1 什么是微调 Fine-tuning 1.2 微调 Fine-tuning 基本思想是什么二、轻度微调lightweight Fine-tuning篇 2.1 什么是轻度微调lightweight Fine-tuning 三、适配器微调Adapter-tuning篇 3.1 什么是适配器微调Adapter-tuning3.2 适配器微调Adapter-tuning变体有哪些四、提示学习Prompting篇 4.1 什么是提示学习Prompting4.2 提示学习Prompting的目的是什么4.3 提示学习Prompting 代表方法有哪些 4.3.1 前缀微调Prefix-tining篇 4.3.1.1 什么是前缀微调Prefix-tining4.3.1.2 前缀微调Prefix-tining的核心是什么4.3.1.3 前缀微调Prefix-tining的技术细节有哪些4.3.1.4 前缀微调Prefix-tining的优点是什么4.3.1.5 前缀微调Prefix-tining的缺点是什么 4.3.2 指示微调Prompt-tuning篇 4.3.2.1 什么是指示微调Prompt-tuning4.3.2.2 指示微调Prompt-tuning的核心思想4.3.2.3 指示微调Prompt-tuning的优点/贡献是什么4.3.2.4 指示微调Prompt-tuning的缺点是什么4.3.2.5 指示微调Prompt-tuning与 Prefix-tuning 区别是什么4.3.2.6 指示微调Prompt-tuning与 fine-tuning 区别是什么 4.3.3 P-tuning 篇 4.3.3.1 P-tuning 动机是什么4.3.3.2 P-tuning 核心思想是什么4.3.3.3 P-tuning 做了哪些改进4.3.3.4 P-tuning 有哪些优点/贡献4.3.3.5 P-tuning 有哪些缺点 4.3.4 P-tuning v2 篇 4.3.4.1 为什么需要 P-tuning v24.3.4.2 P-tuning v2 是什么4.3.4.3 P-tuning v2 有哪些优点4.3.4.4 P-tuning v2 有哪些缺点 4.3.5 PPT 篇 4.3.5.1 为什么需要 PPT 4.3.5.2 PPT 核心思想是什么4.3.5.3 PPT 具体做法是怎么样4.3.5.4 常用的soft prompt初始化方法4.3.5.5 PPT 的优点是什么4.3.5.6 PPT 的缺点是什么 4.4 提示学习Prompting 优点是什么4.5 提示学习Prompting 本质是什么五、指令微调Instruct-tuning篇 5.1 为什么需要指令微调Instruct-tuning5.2 指令微调Instruct-tuning是什么5.3 指令微调Instruct-tuning的优点是什么5.4 指令微调Instruct-tuning vs 提升学习Prompting5.5 指令微调Instruct-tuning vs 提升学习Prompting vs Fine-tuning 六、指令提示微调Instruct Prompt tuning篇 6.1 为什么需要指令微调Instruct-tuning6.2 指令微调Instruct-tuning 是什么6.3 指令微调Instruct-tuning 在不同任务上性能七、self-instruct篇 7.1 什么是 self-instruct 八、Chain-of-Thought 篇 8.1 为什么需要 Chain-of-Thought 8.2 什么是 Chain-of-Thought 8.3 Chain-of-Thought 的思路是怎么样的8.4 Chain-of-Thought 的优点是什么8.5 为什么 chain-of-thought 会成功九、LoRA 篇 9.1 LoRA 篇 9.1.1 LoRA 核心思想是什么9.1.2 LoRA 具体思路是什么9.1.3 LoRA 优点是什么9.1.4 LoRA 缺点是什么 9.2 AdaLoRA 篇 9.2.1 AdaLoRA 核心思想是什么9.2.2 AdaLoRA 实现思路是什么 9.3 DyLoRA 篇 9.3.1 AdaLoRA 动机是什么9.3.2 AdaLoRA 核心思想是什么9.3.3 AdaLoRA 优点是什么十、BitFit 篇 10.1 AdaLoRA 核心思想是什么10.2 AdaLoRA 优点是什么10.3 AdaLoRA 缺点是什么 17、LLMs 面试篇现在达模型LLM微调方式有哪些各有什么优缺点现在达模型LLM微调方式有哪些各有什么优缺点 GLMChatGLM的基座模型常见面试题 GLM 的核心是什么GLM 的模型架构是什么GLM 如何进行多任务训练在进行 NLG 时 GLM 如何保证生成长度的未知性GLM 的多任务微调方式有什么差异GLM 的多任务微调方式有什么优点 18、基础算法常见面试篇过拟合和欠拟合常见面试篇一、过拟合和欠拟合是什么二、过拟合/高方差overfiting / high variance篇 2.1 过拟合是什么及检验方法2.2 导致过拟合的原因是什么2.3 过拟合的解决方法是什么三、欠拟合/高偏差underfiting / high bias篇 3.1 欠拟合是什么及检验方法3.2 导致欠拟合的原因是什么3.3 过拟合的解决方法是什么 BatchNorm vs LayerNorm 常见面试篇一、动机篇 1.1 独立同分布independent and identically distributed与白化1.2 Internal Covariate ShiftICS1.3 ICS问题带来的后果是什么二、Normalization 篇 2.1 Normalization 的通用框架与基本思想三、Batch Normalization 篇 3.1 Batch Normalization纵向规范化是什么3.2 Batch Normalization纵向规范化存在什么问题3.3 Batch Normalization纵向规范化适用的场景是什么3.4 BatchNorm 存在什么问题四、Layer Normalization横向规范化篇 4.1 Layer Normalization横向规范化是什么4.2 Layer Normalization横向规范化有什么用五、BN vs LN 篇六、主流 Normalization 方法为什么有效激活函数常见面试篇一、动机篇 1.1 为什么要有激活函数二、激活函数介绍篇 2.1 sigmoid 函数篇 2.1.1 什么是 sigmoid 函数2.1.2 为什么选 sigmoid 函数作为激活函数2.1.3 sigmoid 函数有什么缺点 2.2 tanh 函数篇 2.2.1 什么是 tanh 函数2.2.2 为什么选 tanh 函数作为激活函数2.2.3 tanh 函数有什么缺点 2.3 relu 函数篇 2.3.1 什么是 relu 函数2.3.2 为什么选 relu 函数作为激活函数2.3.3 relu 函数有什么缺点三、激活函数选择篇正则化常见面试篇一、L0L1L2正则化篇 1.1 正则化是什么1.2 什么是 L0 正则化 1.3 什么是 L1 稀疏规则算子 Lasso regularization正则化 1.4 什么是 L2 正则化岭回归 Ridge Regression 或者权重衰减 Weight Decay正则化二、对比篇 2.1 什么是结构风险最小化2.2 从结构风险最小化的角度理解L1和L2正则化2.3 L1 vs L2 三、dropout 篇 3.1 什么是 dropout3.2 dropout 在训练和测试过程中如何操作3.3 dropout 如何防止过拟合? 优化算法及函数常见面试篇一、动机篇 1.1 为什么需要优化函数1.2 优化函数的基本框架是什么? 二、优化函数介绍篇 2.1 梯度下降法是什么?2.2 随机梯度下降法是什么?2.3 Momentum 是什么?2.4 SGD with Nesterov Acceleration 是什么?2.5 Adagrad 是什么?2.6 RMSProp/AdaDelta 是什么2.7 Adam 是什么?2.8 Nadam 是什么? 三、优化函数学霸笔记篇归一化常见面试篇一、动机篇 1.1 为什么要归一化二、介绍篇 2.1 归一化有哪些方法2.2 归一化各方法特点2.3 归一化的意义三、应用篇 3.1 哪些机器学习算法需要做归一化3.2 哪些机器学习算法不需要做归一化判别式discriminative模型 vs. 生成式(generative)模型常见面试篇一、判别式模型篇 1.1 什么是判别式模型1.2 判别式模型是思路是什么1.3 判别式模型的优点是什么二、生成式模型篇 2.1 什么是生成式模型2.2 生成式模型是思路是什么2.3 生成式模型的优点是什么2.4 生成式模型的缺点是什么 19、机器学习算法篇常见面试篇逻辑回归常见面试篇一、介绍篇 1.1什么是逻辑回归1.2逻辑回归的优势二、推导篇 2.1逻辑回归推导2.2求解优化支持向量机常见面试篇一、原理篇 1.1 什么是SVM Q.A 1.2 SVM怎么发展的1.3 SVM存在什么问题 Q.A 二、算法篇 2.1 什么是块算法2.2 什么是分解算法2.3 什么是序列最小优化算法2.4 什么是增量算法 Q.A 三、其他SVM篇 3.1 什么是最小二次支持向量机3.2 什么是模糊支持向量机3.3 什么是粒度支持向量机3.4 什么是多类训练算法3.5 什么是孪生支持向量机3.6 什么是排序支持向量机 Q.A 四、应用篇 4.1 模式识别4.2 网页分类4.3 系统建模与系统辨识4.4 其他五、对比篇六、拓展篇集成学习常见面试篇一、动机二、集成学习介绍篇 2.1 介绍篇 2.1.1 集成学习的基本思想是什么2.1.2 集成学习为什么有效三、 Boosting 篇 3.1 用一句话概括 Boosting3.2 Boosting 的特点是什么3.3 Boosting 的基本思想是什么3.4 Boosting 的特点是什么3.5 GBDT 是什么3.6 Xgboost 是什么四、Bagging 篇 4.1 用一句话概括 Bagging4.2 Bagging 的特点是什么4.3 Bagging 的基本思想是什么4.4 Bagging 的基分类器如何选择4.5 Bagging 的优点是什么4.6 Bagging 的特点是什么4.7 随机森林是什么五、 Stacking 篇 5.1 用一句话概括 Stacking 5.2 Stacking 的特点是什么5.3 Stacking 的基本思路是什么六、常见问题篇 6.1 为什么使用决策树作为基学习器6.2 为什么不稳定的学习器更适合作为基学习器6.3 哪些模型适合作为基学习器6.4 Bagging 方法中能使用线性分类器作为基学习器吗 Boosting 呢6.5 Boosting/Bagging 与偏差/方差的关系七、对比篇 7.1 LR vs GBDT? 20、关于 Python 关于 Python 一、什么是*args 和 **kwargs 1.1 为什么会有 *args 和 **kwargs1.2 *args 和 **kwargs 的用途是什么1.3 *args 是什么1.4 **kwargs是什么1.5 *args 与 **kwargs 的区别是什么二、什么是装饰器 2.1 装饰器是什么2.2 装饰器怎么用三、Python垃圾回收GC 3.1 垃圾回收算法有哪些3.2 引用计数主要是什么3.3 标记-清除是什么3.4 分代回收是什么四、python的sorted函数对字典按key排序和按value排序 4.1 python 的sorted函数是什么4.2 python 的sorted函数举例说明五、直接赋值、浅拷贝和深度拷贝 5.1 概念介绍5.2 介绍5.3 变量定义流程5.3 赋值5.4 浅拷贝5.5 深度拷贝5.6 核心不可变对象类型 and 可变对象类型 5.6.1 不可变对象类型5.6.2 可变对象类型六、进程、线程、协程 6.1 进程 6.1.1 什么是进程6.1.2 进程间如何通信 6.2 线程 6.2.1 什么是线程6.2.2 线程间如何通信 6.3 进程 vs 线程 6.3.1 区别6.3.2 应用场景 6.4 协程 6.4.1 什么是协程6.4.2 协程的优点七、全局解释器锁 7.1 什么是全局解释器锁7.2 GIL有什么作用7.3 GIL有什么影响7.4 如何避免GIL带来的影响关于 Tensorflow 损失函数一、动机二、什么是损失函数三、目标函数、损失函数、代价函数之间的关系与区别四、损失函数的类别 4.1 回归模型的损失函数 1L1正则损失函数即绝对值损失函数2L2正则损失函数即欧拉损失函数3均方误差MSE, mean squared error4Pseudo-Huber 损失函数 4.2 分类模型的损失函数 1Hinge损失函数2两类交叉熵Cross-entropy损失函数3Sigmoid交叉熵损失函数4加权交叉熵损失函数5Softmax交叉熵损失函数(6) SparseCategoricalCrossentropy vs sparse_categorical_crossentropy 五、总结

查看全文

http://www.w-s-a.com/news/365540/