灯具网站怎么做,中国做网站的网站,wordpress标签加颜色,永康关键词优化1、clip文章中改进点
图像编码器image encoder#xff1a;
将全局平均池化层替换为注意力池化机制。注意力池化机制#xff1a;通过一个单层的“transformer式”多头QKV注意力#xff0c;其中查询query是基于图像的全局平均池表示。改进VIT#xff08;Vision Transformer…1、clip文章中改进点
图像编码器image encoder
将全局平均池化层替换为注意力池化机制。注意力池化机制通过一个单层的“transformer式”多头QKV注意力其中查询query是基于图像的全局平均池表示。改进VITVision Transformer在transformer之前对 combined patch 和 position embeddings添加了额外的层归一化并使用稍微不同的初始化方案。
文本编码器text encoder
训练过程改进点使用混精度训练
关于优化模型训练的过程可以参考这篇论文How to train really large models on many GPUs? 2、上采样
放大原数据数据插值放大原图像,从而可以显示在更高分辨率的显示设备上常见的方法有双线性插值、反卷积、反池化。应用图像放大几乎都采用内插值的方法在原有图像像素的基础上在像素点之间采用合适的插值算法插入新元素。
3、下采样 降采样缩小图像就是池化目的降低特征的维度并保留有效信息一定程度上避免过拟合同时也保持旋转、平移和伸缩不变性增大感受野并提取多尺度特征采样的过程就类似平均池化和最大池化
4、embedding层
是一种将离散输入如单词、字符、用户ID等转换为连续、密集向量表示的方法旨在捕捉输入元素之间的语义和上下文关系。