温州网站设计哪家公司好,服装设计公司简介范文,免费工程分包信息网,东北大学秦皇岛吧广告深度学习计算#xff1a;阿里妈妈智能创意服务优化使用CPU/GPU分离的多进程架构#xff0c;加速阿里妈妈智能创意服务。https://mp.weixin.qq.com/s/_pjhXrUZVzFRtiwG2LhnkwCLIP4Clip: CLIP 再下一城#xff0c;利用CLIP实现视频检索 - 知乎前言#xff1a; OpenAI 的论…广告深度学习计算阿里妈妈智能创意服务优化使用CPU/GPU分离的多进程架构加速阿里妈妈智能创意服务。https://mp.weixin.qq.com/s/_pjhXrUZVzFRtiwG2LhnkwCLIP4Clip: CLIP 再下一城利用CLIP实现视频检索 - 知乎前言 OpenAI 的论文CLIP 可以说得上是一篇神作利用对比学习进行图文预训练在4亿数据集上进行预训练预训练模型在多个任务上达到了sota之前记录过关于CLIP的文章这里放一下 https://zhuanlan.zhihu.co…https://zhuanlan.zhihu.com/p/4431656201.introduction
clip4clip是在clip基础上构建的并设计了一个相似度计算器来研究三种相似度计算方法。1.研究了基于预训练的clip的三种相似度计算机制2.进一步在一个嘈杂的大规模视频-语言数据集上对clip进行预训练以学习更好的检索空间。并且有一些结论1.仅凭单个图像无法对视频进行编码而进行高效检索2.clip4clip在大规模数据集上先进行预训练是必要的3.借助预训练clip对于小样本数据集最好不要引入新的参数并采用平均池化处理视频对于大数据集最好引入更多参数。
2.related works
video encoder backbone. 2D或3D时空卷积或者基于transformer的网络。
visual representation learning from text supervision. clip、MIL-NCE、ClipBERT。
video-text retrieval.
3.framework
给定一个视频集合V和一个字幕集合T目标是学习一个函数s(v,t)来计算视频v∈V和t∈T之间的相似度根据在文本到视频检索中的相似度分数对所有的视频进行排名或者根据视频到文本检索中的查询视频对所有的字幕进行排名。本文中视频v∈V被表示为一系列帧视频v有v个采样帧组成直接将帧作为输入包括一个文本编码器一个视频编码器和一个相似度计算器。 3.1 video Encoder
从视频中提取帧采用了CLIP的12层和32patch size的ViT-B/32的图像编码器作为视频编码器使用Flattened Patches线性投影模块中研究了两种线性投影分别为2D投影和3D投影1.ViT flattened patches的线性投影叫2D投影独立的嵌入每个2D帧块忽略了帧与帧之间的时序关系2.3D线性投影将块嵌入到时间维度上具体而言3D线性使用了一个3D卷积核[txhxw]作为线性投影而不是2D投影中的[hxw]卷积核其中thw分别是时间高度和宽度。 3.2 Text encoder
直接应用CLIP中的文本编码器12层512维有8个attention head。
3.3 Similarity calculator
得到视频表示和文本表示之后关键是相似度计算。由于模型基于预训练的图文模型构建因此在相似度计算时添加新的可学习权重分为三类parameter-free和sequential type都是采用两个分支来计算视频和文本表示的余弦相似度tile采用transformer进行多模态交互并且通过线性投影进一步计算相似度。parameter-free使用mean pooling聚合所有帧得到一个平均帧sequential type其中1.lstm2.带位置嵌入的transformer后再计算mean-poolingtransformer编码将串联的标题表示和帧表示作为融合特征再使用线性层进行相似性预测。
3.4 Training strategy 帧采样每秒一帧。clip4clip在Howto100M数据上训练。
4.experiments