建网站域名注册,网络优化推广公司,云南网上办事大厅,信誉好的丹徒网站建设导言
随着基于对比文本—图像对的预训练#xff08;CLIP#xff09;方法或者模型、聊天生成预训练转换器#xff08;ChatGPT#xff09;、生成预训练转换器-4#xff08;GPT-4#xff09;等基础大模型的出现#xff0c;通用人工智能#xff08; AGI#xff09;的研究…导言
随着基于对比文本—图像对的预训练CLIP方法或者模型、聊天生成预训练转换器ChatGPT、生成预训练转换器-4GPT-4等基础大模型的出现通用人工智能 AGI的研究得到快速发展。AGI旨在为人工智能系统赋予更强大的执行能力使其能够自主学习、不断进化解决各种问题和处理不同的任务从而在多个领域得到广泛应用。这些基础模型在大规模数据集上进行训练后能够成功应对多样的下游任务。在这一背景下Meta公司提出的分割一切模型segment anything modelSAM于2023年取得重要突破在图像分割领域获得了优异的性能以至于被称为图像分割终结者。
论文简介
论文题目 Segment Anything
研究领域 Computer Vision and Pattern Recognition; Artificial Intelligence; Machine Learning
论文作者 Alexander Kirillov等
论文链接 https://arxiv.org/abs/2304.02643v1
主要方法 本文借鉴大型语言模型的思想提出了一种名为SAM的提示分割模型。该模型在大型数据集上进行预训练具有较强的泛化能力可以通过提示工程解决模型在新数据分布上的泛化问题。
模型的输入由两部分组成一部分是分割提示包括点、目标框、掩码和文本提示另一部分是需要进行分割的图像。模型的目标是根据用户提供的分割提示生成一个有效的掩码。 此处“有效掩码”是指即使提示不明确或涉及多个对象模型的输出也应该是这些对象中一个合理的掩码。 SAM主要构成图像编码器、提示编码器和掩码解码器。
1、图像编码器图像编码器在SAM中的作用是将输入图像映射到特征空间这一过程主要依赖于预训练好的ViTvision Transformer模型该模型基于 MAEmasked auto encoder方法进行训练。
2、提示编码器该部分的任务是将用户输入的提示映射至特征空间从而得到提示的特征嵌入。这些提示主要分为两类一类是密集提示上次迭代中预测的粗略掩码、用户标注的掩码另一类是离散提示如点、目标框、文本提示。其中密集提示通过卷积层进行处理而离散提示则通过提示编码器进行处理。
3、掩码解码器该部分主要有两个功能 1将图像编码器和提示编码器输出的两个嵌入层进行整合 2通过整合后的信息解码出最终有效的掩码。值得注意的是掩码解码器会根据置信度输出3种掩码分别是选中物体的整体掩码、部分掩码和子部分掩码。 上图所示当输入的提示点位于剪刀的刀柄部位时模型则会输出以下3种掩码 1将整把剪刀进行分割 2将剪刀的两个刀柄分别进行分割 3将选中的这一个刀柄进行分割。 模型将这3种掩码按照各自的置信度大小进行排序输出以准确地满足用户的需求。
论文针对的问题
在图像分割领域由于缺乏大规模的数据集来训练一个基础模型本文通过数据引擎实现了对数据集的构建和对模型的训练。数据引擎的工作流程分为3个阶段从辅助手动阶段到半自动阶段最后是完全自动阶段。
1、在辅助手动阶段数据标注员借助交互标注工具与SAM一起进行手动标注。这一阶段共收集了430万个掩码和12万幅图像
2、半自动阶段本文利用SAM输出的高置信度掩码对图像进行预标注。然后再对图像中剩余未标注的部分进行交互式标注。这一阶段结束时每幅图像平均提供了72个掩码
3、完全自动阶段进行SAM的最终训练和分割一切SA-1B数据集的获取。最终SA-1B数据集包含1,100万幅图像和11亿个掩码。其中99.1%的掩码是自动生成的。 并且数据集完全开放获取10TB
论文创新点
1、与 ChatGPT 的启发思想一样采用 Prompt-based learning 的可提示学习范式提高学习效率 2、建立了迄今为止最大的分割数据集 Segment Anything 1-BillionSA-1B含 1100 万张图像超过 10 亿个掩码比任何现有的分割数据集多400 倍 3、建立了通用的全自动的分割模型零样本灵活转化新任务新领域结果甚至优于之前的监督结果。
总结
SAM模型的出现推动了计算机视觉领域对于视觉基础模型的进一步研究但仍需克服一些关 键技术挑战。未来的工作可以提高SAM的推理速度和精度特别是在处理大规模数据时应集中在优化模型结构、推理算法和硬件加速等方面的性能提升。其次SAM对大量标注数据的依赖成本高昂限制了其在下游任务上的广泛应用。未来研究可以关注半监督或自监督学习方法减轻数据标注负担提高模型泛化能力。