微信公众号可以做几个微网站吗,三网合一网站建设是指什么,工业品牌设计公司,企业年检网上申报流程基于已有的图像模型和文本模型构建多模态模型。输入是图像、视频和文本#xff0c;输出是文本。
Vision encoder来自预训练的NormalizerFree ResNet (NFNet)#xff0c;之后经过图文对比损失学习。图片经过图像模型的输出是2D grid#xff0c;视频按1FPS的频率采样后经过图…基于已有的图像模型和文本模型构建多模态模型。输入是图像、视频和文本输出是文本。
Vision encoder来自预训练的NormalizerFree ResNet (NFNet)之后经过图文对比损失学习。图片经过图像模型的输出是2D grid视频按1FPS的频率采样后经过图像模型的输出是3D grid都展开成1D送入Perceiver Resampler。
Perceiver Resampler将变长的图片或者视频的特征变成固定长度。结构如下图 通过gated cross-attention dense模块结合图像特征和文本特征。gated cross-attention dense模块使用了tanh-gating机制用tanh(a)乘以文本和图像模态cross-attention后的输出a初始化为0。tanh-gating机制保证初始化的时候模型不受图像特征的影响输出就是语言模型的输出。 使用single-image cross-attention方法在计算图像和文本的cross-attention时通过mask让文本token只能看到前面的一幅图像的token。 训练数据数据集包括公开数据和自建数据。M3W43 million webpages、ALIGN dataset1.8 billion images with alt-text 43 million webpages、312 million image and text pairs、27 million short videos and text pairs。