当前位置：首页 > news >正文

创建个人网站的流程山西钢铁建设集团有限公司网站

news 2025/12/17 4:39:41

创建个人网站的流程,山西钢铁建设集团有限公司网站,网页设计汽车网站建设,wordpress表单位插件Learning Transferable Visual Models From Natural Language Supervision 利用自然语言的监督信号学习可迁移的视觉模型概述迁移学习方式就是先在一个较大规模的数据集如ImageNet上预训练#xff0c;然后在具体的下游任务上再进行微调。这里的预训练是基于有监督训练的然后在具体的下游任务上再进行微调。这里的预训练是基于有监督训练的需要大量的数据标注因此成本较高。近年来出现了一些基于自监督的方法这包括基于对比学习的方法如MoCo和SimCLR和基于图像掩码的方法如MAE和BeiT自监督方法的好处是不再需要标注。但是无论是有监督还是自监督方法它们在迁移到下游任务时还是需要进行有监督微调而无法实现zero-shot。有监督模型在新的数据集上需要定义新的分类器来重新训练。自监督模型代理任务往往是辅助来进行表征学习在迁移到其它数据集时也需要加上新的分类器来进行有监督训练。 NLP领域基于自回归或者语言掩码的预训练方法已经取得相对成熟而且预训练模型很容易直接zero-shot迁移到下游任务。创新点用文本的弱信号帮助有监督的模型取得更好的效果实现zero-shot分类实现预训练模型。 CLIP是一种基于对比学习的多模态模型是用文本作为监督信号来训练可迁移的视觉模型。CLIP(Con trastive Language-Image Pre-training)采用从互联网收集的4亿个图像文本对的数据集预测哪个标题与哪个图像相配这样简单的预训练任务。通过对30多个不同的现有计算机视觉数据集进行基准测试来研究这种方法的性能这些数据集涵盖了诸如OCR、视频中的动作识别、地理定位和许多类型的细粒度对象分类等任务。该模型不需要任何数据集的专门训练地迁移到大多数任务中并且通常与完全监督的基线旗鼓相当。例如CLIP不需要使用ImageNet的128万个训练实例中的任何一张图片就可以达到ResNet-50的准确率。原理图1.CLIP方法摘要。标准的图像模型联合训练一个图像特征提取器和一个线性分类器来预测一些标签而CLIP联合训练一个图像编码器和一个文本编码器来预测一批图像文本训练例子的正确配对。 CLIP通过联合训练一个图像编码器和文本编码器来学习一个多模态的嵌入空间训练目标是最大化批次中N个正确对的图像和文本嵌入的余弦相似性同时最小化N2-N个错误对的嵌入的余弦相似性。CLIP为图像编码器考虑了两种不同的架构ResNet-50和ViT。文本编码器使用transformer文本序列用[SOS]和[EOS]标记括起来transformer的最高层在[EOS]标记处的激活被视为文本的特征表示它被层层规范化然后线性投影到多模态嵌入空间。对于ResNet图像编码器我们使用了一个简单的基线即平均分配额外的计算量来增加模型的宽度、深度和分辨率。对于文本编码器我们只将模型的宽度扩展到与ResNet的计算宽度增加成正比而完全不扩展深度因为我们发现CLIP的性能对文本编码器的容量不太敏感。实验对于每个数据集我们使用数据集中所有类别的名称作为潜在的文本配对的集合并根据CLIP预测最可能的图像文本配对。更详细一点我们首先通过各自的编码器计算图像的特征嵌入和可能的文本集合的特征嵌入。然后计算这些嵌入的余弦相似度用temperature参数τ进行缩放并通过softmax归一化为一个概率分布。注意这个预测层是一个多叉逻辑回归分类器具有L2归一化的输入、L2归一化的权重、无偏差和temperature 缩放。表1.将CLIP与之前的zero-shot迁移图像分类结果进行比较。CLIP在所有三个数据集上的性能都有很大的提高。在表1中我们将Visual N-Grams与CLIP进行了比较。最好的CLIP模型将ImageNet的准确率从概念证明的11.5%提高到76.2%并与原始ResNet-50的性能相匹配而没有使用这个数据集的128万个带标记的训练实例。另外CLIP模型的前5名准确率明显高于他们的前1名这个模型的前5名准确率为95%与Inception-V4相匹配。以zero-shot的设置匹配一个强大的、完全监督的基线的性能的能力表明CLIP是向灵活和实用的zero-shot计算机视觉分类器迈出的重要一步。图4.提示工程和合集提高了zero-shot性能。与使用无上下文的类名的基线相比提示工程和合集在36个数据集上平均提高了近5个点的zero-shot分类性能。这一改进与使用基线zero-shot方法的4倍计算量的收益相似但在多次预测中摊销时是免费的。一个常见的问题是多义性。当一个类的名称是提供给CLIP文本编码器的唯一信息时由于缺乏上下文它无法区分哪个词的意义。在某些情况下同一个词的多种意义可能被包括在同一个数据集中的不同类中通常文本是一个完整的句子以某种方式描述图片。为了帮助弥补这一分布差距我们发现使用提示模板 A photo of a {label}. 有助于指定文本是关于图片的内容。这通常比只使用标签文本的基线提高了性能。例如仅仅使用这个提示就使ImageNet的准确性提高了1.3%。指定类别也是有帮助的。例如在Oxford-IIIT Pets上使用 A photo of a {label}, a type of pet. 来帮助提供背景效果很好。图5.Zero-shot CLIP与完全超视距的基线具有竞争力。在27个数据集的评估套件中Zero-shot CLIP分类器在16个数据集包括ImageNet上的表现优于适合ResNet-50特征的完全监督线性分类器。图6.Zero-shot CLIP的性能优于少数的线性探针。Zero-shot CLIP与在相同特征空间上训练的4-shot线性分类器的平均性能相匹配并且几乎与公开可用模型中的16-shot线性分类器的最佳结果相匹配。对于BiT-M和SimCLRv2性能最好的模型被高亮。浅灰色线条是评估套件中的其他模型。本分析中使用了20个每类至少有16个例子的数据集。局限尽管zero-shot CLIP表现很好但仍然需要大量的工作来提高CLIP的任务学习和迁移能力。要达到整体的最先进的性能zero-shot的CLIP需要增加1000倍的计算量这在目前的硬件训练中是不可行的进一步研究改进CLIP的计算和数据效率将是必要的。 zero-shot CLIP在一些细分的、专门的、复杂的或抽象的任务上表现不好。对那些真正超出分布的数据的泛化性很差。虽然CLIP可以灵活地生成各种任务和数据集的零样本分类器但CLIP仍然仅限于从一个给定的零样本分类器中选择那些概念。 CLIP对数据的利用并不高效。将CLIP与自监督和自我训练方法结合起来比标准监督学习数据效率高。

查看全文

http://www.w-s-a.com/news/276660/