发布网站后不可能存在的文件夹是,推广赚钱app排行榜,wordpress xampp,做cpa项目用什么网站前言
在上一篇文章中#xff0c;我们剖析了diffusion model的原理#xff0c;而在这一篇文章中#xff0c;我们探讨与扩散模型有关的其他话题#xff0c;包括扩散模型的unet是如何在推理噪声的过程中#xff0c;融入文本信息的考量#xff1f;其原理为交叉注意力机制我们剖析了diffusion model的原理而在这一篇文章中我们探讨与扩散模型有关的其他话题包括扩散模型的unet是如何在推理噪声的过程中融入文本信息的考量其原理为交叉注意力机制到底是什么机制 扩散模型的LORA训练原理是什么
交叉注意力机制
首先参考Understanding Stable Diffusion from Scratch可知扩散模型的主要技术点有unet、word embedding、cross attention、auto encoder。其中文本能够影响图像生成的原因是交叉注意力机制 Let text influence image through cross attention 交叉注意力机制 中提到在朴素的多头注意力机制之上改进将QKV向量变成文本向量就是交叉注意力机制了。 “如果 d_input 存在, 变成交叉注意力. 否则是自我注意力.查询键值设置被构造为输入 d_model的线性变换.” LORA训练
AI绘画入门扩散模型Stable DiffusionLoRAControlNet相关技术原理
LORA的原理是训练附加的网络参数用于影响原有的网络行为。具体而言就是在网络层一个大的转置矩阵旁添加两个小矩阵的乘积从而得到风格受影响的图片。 主要思路是在固定大网络的参数并训练某些层一般是某些层的线性部分比如Transformer中的QKV的线性投影部分以及FFN的线性部分参数的增量且这些参数增量可通过矩阵分解变成更少的可训练参数大大降低finetune所需要训练的参数量。