怎样免费做外贸网站,网站开发工具书,wordpress跨站脚本攻击漏洞,合肥网站设计goz本系列专栏#xff0c;主要是对transformer的基本原理做简要笔记#xff0c;目前也是主要针对个人比较感兴趣的部分#xff0c;包括#xff1a;神经网络基本原理、词嵌入embedding、自注意力机制、多头注意力、位置编码、RoPE旋转位置编码等部分。transformer涉及的知识体系…本系列专栏主要是对transformer的基本原理做简要笔记目前也是主要针对个人比较感兴趣的部分包括神经网络基本原理、词嵌入embedding、自注意力机制、多头注意力、位置编码、RoPE旋转位置编码等部分。transformer涉及的知识体系比较庞大还有待持续深入。以下各部分的笔记我尽可能通过图示和极简的代码DEMO说明以加深对原理的理解。
主要内容
一、transformer学习笔记-神经网络原理 二、transformer学习笔记-词嵌入embedding原理 三、transformer学习笔记-自注意力机制1原理部分 四、transformer学习笔记-自注意力机制2代码部分 五、transformer学习笔记-位置编码 参考
神经网络部分 深度图解神经网络的数学原理 卷积神经网络CNN基础知识整理 什么是欠拟合和过拟合以及如何避免 深度学习之神经网络的结构 Part 1 ver 2.0 深度学习之梯度下降法 Part 2 ver 0.9 beta 深度学习之反向传播算法 上/下 Part 3 ver 0.9 beta
词嵌入部分 Embedding技术的本质图解 没有思考过 Embedding不足以谈 AI https://blog.51cto.com/u_15671528/5929544 如何在7分钟内彻底搞懂word2vec 词嵌入、word2vec模型如何将文字转化为数值 word2vec连续词袋模型CBOW详解 什么是词嵌入Word Embedding算法
注意力部分 三种Transformer模型中的注意力机制介绍及Pytorch实现从自注意力到因果自注意力 如何理解attention中的Q,K,V 超详细图解Self-Attention 全方位解析Transformer模型一文彻底掌握其架构、原理与应用精髓 transformer中的attention为什么scaled? 从梯度最大化看Attention的Scale操作 为什么Attention计算公式中QK的点积要除以根号d 直观解释注意力机制Transformer的核心 白话transformer二_QKV矩阵 transformer的细节到底是怎么样的Transformer 连环18问 Attention is all you need
位置编码部分 图解Transformer系列一Positional Encoding位置编码 transformer 中的 RoPE 位置编码 大模型系列快速通俗理解Transformer旋转位置编码RoPE RoPE原论文 十分钟读懂旋转编码RoPE 再论大模型位置编码及其外推性万字长文 【大模型理论篇】RoPE旋转位置编码底层数学原理分析