动力无限西安网站建设,文化建设设计网站,电影网站建设步骤,劳务公司网站建设最快的学习方法#xff0c;理清思路#xff0c;找视频讲解#xff0c;看源码逻辑#xff1a; CLIP 源码讲解 唐宇
输入#xff1a; 图像-文本成对配对的数据 训练模型的过程#xff08;自己理解#xff09;#xff1a;
怎么做的#xff1f;#xff1a;利用数据内部…最快的学习方法理清思路找视频讲解看源码逻辑 CLIP 源码讲解 唐宇
输入 图像-文本成对配对的数据 训练模型的过程自己理解
怎么做的利用数据内部特征相似与不相似学习到能够同时表示图像和文本的潜在特征相当于把图像和文本在同一个潜在空间里进行特征学习和表示
为什么能学到呢相当于我已知这个图像跟这个文本是配对的是相似的或者说这两个东西是一个意思然后把这两个当成正样本计算正样本的相似度要越大越好即学习到的图像和文本的潜在特征表示进行运算后得到的相似度要越大越好所以反向约束表示图像和文本的特征要能够彼此互通图像的特征向量能够跟文本的特征向量在语义上能够互相认识彼此从而认出彼此是相似的。
对比损失函数 si,i 正样本相似度 si,k负样本相似度 优化方向分母的负样本相似度越小越好小到0可忽略不计这时正样本上下抵消为1log10loss为0. τ是一个神秘的参数大部分论文都默认采用较小的值来进行自监督对比学习例如0.05
对比损失是一个具备困难负样本自发现性质的损失函数这一性质对于学习高质量的自监督表示是至关重要的。关注困难样本的作用是对于那些已经远离的负样本不需要让其继续远离而主要聚焦在如何使没有远离的负样本远离从而使得表示空间更均匀Uniformityτ的作用是调节模型困难样本的关注程度τ 越小模型越关注于将那些与本样本最相似的负样本分开
累加是相当于i要跟多个非i的剩余负样本计算比如有5-5的图像文本对1-1为正样本1跟2~5都为负样本都要计算相似度所以要累加。
模型能力用训练好的模型进行推理
给一个模型没见过的图像和几个没见过的文本能够判断图像跟哪个文本是更加配对的~ 具有泛化能力相当于我模型已经能够编码图像和文本并且让图像和文本能够互相认识彼此。给一个模型没见过的文本和几个没见过的图像能够判断文本跟哪个图像更加配对同理。
对应CLIP源代码实现细节 图略有些糊 计算图像和文本的表示向量 计算对比损失 2.1. 计算相似度具体有两种情况但最终都是一样计算图像和文本相似度 2.2 按照损失公式的运算计算对比损失explog等操作 exp 运算 计算分子正样本相似度, 需要用matrix_diag 标记区分 matrix_diag 对角矩阵矩阵斜线上都为true表示正样本其余为false 表示负样本 计算分母负样本相似度t.masked_fill(pos_mask,0) 把斜对角线上设置为0正样本其余设置为1
最终计算contrastive lossloss计算加上 -log 取平均作为最终的loss SimCLR 内部成对正样本计算