当前位置：首页 > news >正文

南京建站公司女頻做的最好的网站

news 2026/4/8 19:27:19

南京建站公司,女頻做的最好的网站,郑州网站seo费用,医药企业网站建设要哪些备案目录论文概述1.论文摘要2.论文脑图3.论文创新3.1模型构建3.2训练方法3.3数据构建3.4部署优化 4.模型架构论文解析1. 引言2. 方法2.1数据说明2.2预训练方法2.2.1模型初始化方法2.2.2两阶段预训练方法 2.3预训练细节2.3.1模型初始化2.3.2第一阶段预训练2.3.3第二阶段预训练2.3.… 目录论文概述1.论文摘要2.论文脑图3.论文创新3.1模型构建3.2训练方法3.3数据构建3.4部署优化 4.模型架构论文解析1. 引言2. 方法2.1数据说明2.2预训练方法2.2.1模型初始化方法2.2.2两阶段预训练方法 2.3预训练细节2.3.1模型初始化2.3.2第一阶段预训练2.3.3第二阶段预训练2.3.4更高分辨率模型预训练 2.4微调细节2.4.1微调数据集2.4.2实验环境与策略 3. 评价3.1跨模态检索3.1.1数据集和评估指标3.1.2评估结果3.1.3消融研究 3.2零样本图像分类3.2.1中文开放域图像分类基准3.2.2实验结果3.2.3实验分析 4.部署4.1模型部署4.2性能测试4.3指标评估 5. 总结6. 局限性及应对措施6.1数据局限性及改进方向6.2模型局限性及改进方向 Chinese CLIPContrastive Vision-Language Pretraining in Chinese中文视觉对比语言预训练论文https://arxiv.org/abs/2211.013352023.05GitHubhttps://github.com/OFA-Sys/Chinese-CLIP在人工智能领域视觉与语言的融合一直是研究的热点方向。随着技术的不断发展视觉语言基础模型如雨后春笋般涌现。然而大多数跨模态预训练模型在向特定语言场景迁移时面临诸多挑战。今天我们将深入研读 “Chinese CLIP: Contrastive Vision - Language Pretraining in Chinese” 这篇论文来探究如何针对中文环境打造高效的视觉语言预训练模型。该论文由安杨、潘俊书等学者撰写。文章提出了 Chinese CLIP这是一种在中文图像文本对上进行预训练的特定语言视觉语言基础模型并通过实验证明了其在跨模态检索和零样本图像分类任务中的有效性。论文概述 1.论文摘要视觉语言基础模型取得的巨大成功推动了计算机视觉和多模态表征学习的研究与应用。然而将这类基础模型有效地迁移到特定语言场景中仍然存在困难。在这项研究中论文提出了中文 CLIP 模型并采用两阶段预训练方法第一阶段使用锁定图像调整locked-image tuning对模型进行训练第二阶段则进行对比调整contrastive tuning。具体而言论文开发了 5 种不同规模的中文 CLIP 模型参数数量从 7700 万到 9.58 亿不等并且在收集到的大规模中文图像文本对数据集上对这些模型进行了预训练。综合实验表明中文 CLIP 在零样本学习和微调设置下在 MUGE、Flickr30K-CN 和 COCO-CN 等数据集上均能达到最先进的性能表现。此外基于 ELEVATER 基准测试的评估该模型在零样本图像分类任务中也具备有竞争力的性能。 2.论文脑图 3.论文创新 3.1模型构建特定语言模型构建提出专门针对中文的视觉语言基础模型 Chinese CLIP利用大规模中文图像文本对数据进行预训练有效解决跨模态预训练模型难以向中文场景高效迁移的问题促进了中文特定的多模态表示学习。 3.2训练方法两阶段预训练方法提出两阶段预训练方法先通过 Locked-image TuningLiT让文本编码器从基础视觉模型中读取高质量表示再将整个模型迁移到引入的预训练数据领域。这种方法有效提升了模型性能且优于从头开始预训练或直接微调预训练模型的方式。 3.3数据构建大规模数据集构建构建了大规模的中文图文对数据集数据来源广泛包括从 LAION-5B 中提取的中文数据、悟空数据集以及经典英文多模态数据集的翻译数据等。通过精心的数据预处理为模型训练提供了高质量的数据支持。 3.4部署优化模型部署优化提供 NVIDIA TensorRT 和 ONNX 模型用于部署显著提升了推理效率推理速度比 Pytorch 模型快 2 - 10 倍且几乎不损失性能为模型的实际应用提供了更高效的解决方案。 4.模型架构开发了 5 种不同规模的 Chinese CLIP 模型参数数量从约 7700 万到 9.58 亿不等。包含 1 个基于 ResNet-50 的模型 CN-CLIPRN50 和 4 个基于视觉 TransformerViT的模型即 CN-CLIPViT-B/16、CN-CLIPViT-L/14、CN-CLIPViT-L/14336px 和 CN-CLIPViT-H/14 。除特别说明外这些模型均在分辨率为 224×224 的图像上进行预训练各模型架构如下。 ResNet-50、ViT-B/16 和 ViT-L/14 的骨干架构与 OpenAI CLIP 一致ViT-H/14 的架构与 LAION CLIP 相同这使得可以用这些模型的权重初始化 Chinese CLIP 的图像编码器。文本编码器采用中文 Roberta 模型其中最轻量化的小尺寸模型使用 3 层 RBT3 架构基础尺寸和大尺寸模型采用 12 层 RoBERTa-wwm-Base 架构超大尺寸的 CN-CLIP 使用 24 层 RoBERTa-wwm-Large 架构。文本分词器的词汇表大小为 21,128。论文解析 1. 引言在基础模型的发展历程中对比语言图像预训练模型 CLIP 是多模态表示学习领域的一个重要里程碑。与传统的生成式预训练不同CLIP 是一种基于对比学习的模型它在包含约 4 亿个图像 - 文本对的大规模数据集上进行预训练。CLIP 不仅在视觉语言检索中取得了卓越的性能也在一系列数据集的零样本图像分类任务中展现出了最先进的性能。CLIP 在视觉和语言之间建立了联系这种将视觉和语言关联起来的能力为多模态表示学习提供了新的思路推动了计算机视觉从依赖大量标注数据的传统模式向基于多模态关联的新方向发展。由于多种原因将跨模态预训练模型有效地迁移到另一种语言中是很困难的CLIP 在多数场景表现好但在中文跨模态检索中使用机器翻译的数据让它难以发挥实力因为它没有充分学习中文视觉和语言数据的分布特点。在使用 MUGE 基准进行测试时CLIP 的表现远不如 Chinese CLIP。如下图这一结果凸显了 Chinese CLIP 针对中文数据进行优化的有效性说明专门为中文设计的模型在处理中文相关任务时更具优势。为了解决跨模态预训练模型在中文数据上的应用问题本文提出了 Chinese CLIP采用与 OpenAI CLIP 相同的架构开发了一种两阶段预训练方法。第一阶段让文本编码器适应中文文本利用已有的视觉编码器基础第二阶段让两个编码器共同学习使模型能更好地融合中文图像和文本信息。这种设计使得模型能有效利用预训练知识并适应中文数据为后续在中文视觉 - 语言任务中的良好表现奠定了基础。本文提供了用于部署的 NVIDIA TensorRT 和 ONNX 模型在推理时它们的运行速度比 PyTorch 模型快约 2 到 10 倍。Chinese CLIP 在零样本学习和微调设置下的跨模态检索任务中达到了最先进的性能水平在零样本图像分类任务中也具备有竞争力的性能。 2. 方法 2.1数据说明使用尽可能多的公开可用数据对 Chinese CLIP 进行预训练收集高质量的公共数据集包括从 LAION - 5B、悟空数据集提取中文数据以及添加经典英文多模态数据集的翻译数据构建了一个包含约 2 亿个图像文本对的中文多模态预训练数据集。对于图像大多数情况下是将其分辨率调整为 224×224对于 ViT - L/14336px 模型图像分辨率调整为 336×336 。 2.2预训练方法 2.2.1模型初始化方法利用现有预训练模型的优势使用 CLIP 官方发布的预训练检查点的权重来初始化图像编码器使用 RoBERTa - wwm - ext 和 RBT3 的权重来初始化文本编码器。对比了 “对比调整”contrastive tuning 和 “锁定图像调整Locked - image TuningLiT” 两种预训练方式突出 LiT 在下游迁移中的优势。 2.2.2两阶段预训练方法第一阶段在预训练过程中冻结图像编码器的参数即 “锁定” 图像编码器仅对文本编码器进行预训练以实现视觉 - 语言对齐直到预训练性能没有显著提升为止。第一阶段让文本编码器更好地适应中文文本数据利用预训练的图像编码器强大的特征提取能力专注于文本编码器与图像编码器的对齐训练。第二阶段在没有任何参数冻结的情况下继续预训练以便图像编码器能够学习对来自中文网站的图像数据分布进行建模。第二阶段让图像编码器学习中文图像数据的特征和分布使得整个模型能够更好地融合视觉和语言信息。 2.3预训练细节 2.3.1模型初始化图像编码器初始化使用 OpenAI CLIP 的权重初始化 CN-CLIPRN50、CN-CLIPViT-B/16 和 CN-CLIPViT-L/14 的图像编码器使用 LAION CLIP 的权重初始化 CN-CLIPViT-H/14 的图像编码器除了 ResNet 或 ViT 的参数外温度参数和视觉输出投影参数也用预训练的 CLIP 权重进行初始化。文本编码器初始化使用相应模型规模的已发布中文 Roberta 权重来初始化其参数但会丢弃池化层权重文本输出投影权重则通过正态分布随机初始化。 2.3.2第一阶段预训练 CN-CLIPRN50、CN-CLIPViT-B/16、CN-CLIPViT-L/14 和 CN-CLIPViT-H/14 这4个模型共享超参数图像编码器被冻结分别预训练约 20、44、64 和 26 个 epoch预训练的最优 epoch 数是通过在训练过程中测量 3 个下游零样本检索任务的平均召回率来确定启用了混合精度训练。对输入图像使用随机裁剪和自动数据增强通过 GPU 之间的全收集通信all-gather communications来计算全局批次上的对比损失对于 CN-CLIPRN50在这个阶段不更新批归一化层的运行方差和均值。使用 64 个 NVIDIA V100 GPU 对 CN-CLIPRN50 预训练 1.6 天使用 128 个 NVIDIA V100 GPU 对 CN-CLIPViT-B/16 预训练 4.5 天使用 128 个 NVIDIA V100 GPU 对 CN-CLIPViT-L/14 预训练 11.5 天使用 184 个 NVIDIA A100 GPU 对 CN-CLIPViT-H/14 预训练 3.8 天。 2.3.3第二阶段预训练解冻图像编码器并更新所有模型参数。除了峰值学习率、批量大小和训练 epoch 数外第一阶段中提到的所有其他超参数保持不变。为了进行更精细的优化我们将学习率降低到 2e-5。由于 GPU 内存的限制对于 CN-CLIPRN50、CN-CLIPViT-B/16 和 CN-CLIPViT-L/14批量大小分别缩小到 16384、16384 和 4608。在处理 CN-CLIPViT-H/14 时我们采用梯度检查点技术gradient checkpointing这使得批量大小可以增大到 32,768。这 4 个模型在第二阶段分别预训练约 44、15、7 和 7 个 epoch。使用 64 个 NVIDIA V100 GPU 对 CN-CLIPRN50 预训练 5.8 天使用 128 个 NVIDIA V100 GPU 对 CN-CLIPViT-B/16 预训练 3.0 天使用 128 个 NVIDIA V100 GPU 对 CN-CLIPViT-L/14 预训练 8.0 天使用 184 个 NVIDIA A100 GPU 对 CN-CLIPViT-H/14 预训练 2.2 天。 2.3.4更高分辨率模型预训练对 CN-CLIPViT-L/14 的图像位置嵌入进行插值以适应更高的分辨率然后使用分辨率为 336×336 的图像继续预训练。从 CN-CLIPViT-L/14 开始继续预训练 2 个 epoch。预训练过程仅使用 128 个 NVIDIA A100 GPU耗时 0.7 天。这是针对特定分辨率模型的训练优化以充分利用更高分辨率图像中的信息提升模型性能。 2.4微调细节 2.4.1微调数据集选择 MUGE、Flickr30K-CN 和 COCO-CN 这 3 个跨模态检索数据集对 Chinese CLIPCN-CLIP进行微调这是因为它们在跨模态检索研究中具有代表性能有效检验模型在不同场景下的性能。MUGE 检索数据集是一个图像 - 文本检索数据集其数据提取自中国的电子商务网站。Flickr30K - CN 和 COCO - CN这两个数据集基于经典的 Flickr30K 和 MSCOCO - 1K 数据集构建通过将原数据集中的文本翻译成中文。MUGE、Flickr30K - CN 和 COCO - CN 这三个数据集的平均文本长度分别为 7.4、19.7 和 16.8。 2.4.2实验环境与策略使用 32 个 NVIDIA A100 GPU 进行实验微调策略和损失函数与预训练过程一致便于模型快速适应微调任务。将批量大小设置得尽可能大提高训练效率。在对 CN-CLIPViT-L/14336px 和 CN-CLIPViT-H/14 进行微调时采用梯度检查点技术以便能够使用更大的批量大小。除了如批量大小、学习率等其他超参数默认与预训练相同。在每个训练轮次结束时保存模型参数以便后续选择最佳模型。微调过程中批量大小、峰值学习率、最大训练轮数和热身迭代次数的具体设置如下 3. 评价 3.1跨模态检索 3.1.1数据集和评估指标在 MUGE、Flickr30K-CN 和 COCO-CN三个跨模态检索数据集上对 Chinese CLIP 进行验证和测试。通过零样本学习和微调两种设置来全面考察模型性能。零样本学习测试模型在未见过特定类别样本时对图像和文本的匹配能力反映模型的泛化能力微调则是在已有模型基础上通过特定数据集进一步优化模型看其在特定任务上的提升效果。使用 Chinese CLIP 模型来计算图像与文本之间的相似度得分并返回相似度最高的前 K 个候选结果。对于微调设置采用对比调整的方法对 Chinese CLIP 模型进行跨模态检索的微调。其评估方式与零样本学习中的评估方式相同。评估指标为 RecallK其中 K 取值为 1、5、10以及平均召回率MR即 RecallK 的平均值。 3.1.2评估结果 MUGE - Retrieval 数据集基础规模的 CN - CLIPViT - B/16 和小型的 CN - CLIPRN50 在零样本学习和微调设置下相比基线模型 WukongViT - B/32 和 R2D2ViT - B在平均召回率MR指标上有显著提升。大规模模型 CN - CLIPViT - L/14 及更高分辨率的 CN - CLIPViT - L/14336px 性能突出CN - CLIPViT - H/14 进一步提升了性能。 Flickr30K - CN 和 COCO - CN 数据集重点关注 R1 指标无论是基础规模模型 CN - CLIPViT - B/16 和 CN - CLIPRN50还是大规模模型 CN - CLIPViT - L/14 及 CN - CLIPViT - L/14336px在零样本学习和微调设置下在文本到图像检索和图像到文本检索方面大多能超越基线模型。而且从 CN - CLIPViT - L/14 提升到 CN - CLIPViT - H/14性能在各指标上普遍提高。在平均文本长度为 45.3 的 ICR数据集上进行了微调实验。由于 ICR 数据集中的文本较长我们在微调时将最大文本长度设置为 128。结果表明Chinese CLIP 在处理较长文本的跨模态检索任务中也能达到最先进的性能水平。 3.1.3消融研究预训练方式对比对比使用预训练模型初始化和从头开始预训练两种方式强调从头开始预训练虽性能持续提升但总体远不如使用预训练模型初始化的方式。LiT 在不同数据集的作用在 MUGE 数据集中文原生数据上不使用 LiT 预训练效果与两阶段预训练接近而在 Flickr30K - CN 和 COCO - CN翻译自英文数据集上两阶段预训练含 LiT优势显著说明 LiT 对不同来源的数据影响不同。两阶段预训练的优势两阶段预训练从第一阶段到第二阶段的切换能有效提升模型性能突出了让模型适应中文多模态数据分布特别是视觉信息部分对提升模型性能的重要意义。 3.2零样本图像分类 3.2.1中文开放域图像分类基准 ELEVATER 基准测试是该领域的新进展其中 ICinW 赛道包含如 ImageNet、CIFAR、MNIST 等一系列常用的图像分类数据集为评估模型在开放域图像分类任务中的性能提供了标准和数据基础。本文基于这些数据集对 Chinese CLIP 零样本图像分类能力进行评估。 3.2.2实验结果基线模型介绍使用英文数据预训练的基线模型如 CLIP 和 ALIGN和中文数据预训练的基线模型BriVL 和悟空。与中文基线模型比较突出 Chinese CLIP 在所有数据集上对中文基线模型的显著优势表明其在中文相关图像分类任务中的良好性能。与英文基础模型比较指出在多种数据集以及一般概念或物体分类上Chinese CLIP 优于英文基础模型 CLIP 和 ALIGN体现其在通用图像分类任务上的能力。专有名词分类问题提出在涉及专有名词的分类任务中如FGVC - Aircraft 数据集各模型普遍精度低特别强调中文模型受翻译和音译影响大需要构建一个 “针对中文模型的野外图像分类” 基准。 3.2.3实验分析对人工设计提示的敏感性指出 ELEVATER 基准测试提供的特定提示并非总是最佳对于某些数据集利用人类知识设计的特定提示能够显著提升性能。与 OpenAI CLIP 提示翻译的基线对比不同数据集情况有别。飞机分类的例子使用与飞机知识相关的特定提示如 “标签一张飞机的照片”“标签一张战斗机的特写图像” 等说明特定领域知识设计的提示能提升模型准确率反映出模型对人工设计提示的敏感性。无法理解否定含义通过在 KITTI - Distance 和 Patch - Camelyon 数据集实验表明 CLIP 模型难以理解否定含义。在相关数据集测试中改变含否定意义的标签导致模型准确率大幅下降原因是预训练数据集中缺乏关于物体缺失的描述体现模型在学习否定含义方面的局限性。 4.部署 4.1模型部署基于 PyTorch 预训练的 Chinese CLIP 模型开发基于 ONNX 和 TensorRT 的模型用于部署这些模型在推理效率上显著提升且性能损失极小基于 TensorRT 的模型推理效率比 PyTorch 模型快 2 - 10 倍为模型实际应用提供了有效方案。利用 PyTorch 的 ONNX 模块、ONNXMLTOOLS 工具包将 PyTorch 版 Chinese CLIP 模型转为 FP16 精度的 ONNX 模型借助 ONNXRUNTIME - GPU 实现 NVIDIA GPU 推理TENSORRT 工具包将 ONNX 模型转为 TensorRT 模型并提供 GPU 推理环境且 TensorRT 模型也是 FP16 精度。 4.2性能测试使用含单个 NVIDIA T4 GPU 的服务器16 Intel Xeon (Skylake) Platinum 8163 CPU cores with 64GB memory.对 PyTorch 版及转换后的模型做基准测试模拟在线部署设置批量大小为 1以 FP16 精度推理 100 批次计算平均时间。结果显示基于 ONNX 和 TensorRT 的模型推理速度在各模型规模均有优化小模型规模更显著。 4.3指标评估通过测量在 MUGE 检索数据集上的零样本性能来评估基于 ONNX 和基于 TensorRT 的模型表征质量。零样本实验结果表明转换后的基于 ONNX 或基于 TensorRT 的模型能够很好地保持视觉和文本表征的质量在检索性能上平均召回率MR下降不超过 0.1。 5. 总结在这项研究中我们提出了 Chinese CLIP这是一个专为中文设计的视觉 - 语言基础模型。具体而言我们构建了一个包含约 2 亿个样本的预训练数据集并使用所提出的两阶段预训练方法对一系列 Chinese CLIP 模型进行预训练这种方法提高了预训练的效率和效果。我们全面的评估表明Chinese CLIP 在多个跨模态检索数据集上无论是零样本学习还是微调设置下都能达到最先进的性能。此外我们证明了 Chinese CLIP 模型在 10 个数据集的零样本图像分类任务中也能取得颇具竞争力的成绩。 6. 局限性及应对措施 6.1数据局限性及改进方向数据局限性1CLIP 预训练的核心在于对海量数据进行简单却有效的大规模对比预训练Chinese CLIP 已经使用了约 2 亿个样本但预训练数据规模仍相对较小。2难以确定什么样的数据集对于 CLIP 而言是 “高质量” 的在以往研究中预处理方法大多较为简单以避免数据丢失。然而仍有许多样本的图像和文本匹配不当这可能会给预训练提供负面信息。改进方向1扩大预训练数据的数量以评估随着数据规模扩大模型性能的提升情况.2计划使用预训练的 Chinese CLIP 模型为更大数据集中的每一个图像 - 文本对计算得分过滤掉得分低于指定阈值的样本并使用新数据预训练新模型。这是探索数据质量与预训练效果之间关系的可能解决方案之一。而且这种循环操作可能会在下游任务中带来持续的性能提升。 6.2模型局限性及改进方向模型局限性随着Chinese CLIP 模型规模的扩大在不同的下游任务包括检索和分类中都能实现稳定的性能提升与实际应用相关的模型规模的另一个问题是如何构建有效的小型模型。实验结果表明最小的 Chinese CLIP 模型 CN - CLIPRN50 的性能比 ViT 变体差很多。然而在实际应用中可用于部署的有效小型模型通常更受欢迎。改进方向将继续探索在扩大数据规模的同时扩大模型规模以构建更有效的 Chinese CLIP同时探索针对 CLIP 的知识蒸馏方法以便将大型模型的能力迁移到小型模型中应用。

查看全文

http://www.w-s-a.com/news/14352/