网站建设方案范文,深圳做网站费用,作品集用什么网站做,django完整网站开发文章目录 摘要1 引言2 相关工作3 任务:可提示视觉分割4 模型5 数据5.1 数据引擎5.2 SA-V数据集6 零样本实验6.1 视频任务6.1.1 提示视频分割6.1.2 半监督视频对象分割6.1.3 公平性评估6.2 图像任务7 与半监督VOS的最新技术的比较8 数据和模型消融8.1 数据消融8.2 模型架构消融… 文章目录 摘要1 引言2 相关工作3 任务:可提示视觉分割4 模型5 数据5.1 数据引擎5.2 SA-V数据集 6 零样本实验6.1 视频任务6.1.1 提示视频分割6.1.2 半监督视频对象分割6.1.3 公平性评估 6.2 图像任务 7 与半监督VOS的最新技术的比较8 数据和模型消融8.1 数据消融8.2 模型架构消融8.2.1 容量消融8.2.2 相对位置编码8.2.3 记忆架构消融 9 结论10 致谢附录A PVS任务的细节B 局限性C SAM 2细节C. 1 架构C. 2 训练C.2.1 预训练C.2.2 全面训练 C. 3 速度基准测试 D 数据细节D. 1 SA-V数据集细节D.2 数据引擎细节D.2.1 注释协议D.2.2 数据引擎阶段比较 E 关于零样本转移实验的更多细节E.1 零样本视频任务E.1.1 视频数据集细节E.1.2 交互式离线和在线评估细节 E.1.3 半监督VOS评估细节E.1.4 SAM+XMem++和SAM+Cutie基线细节 E.2 DAVIS交互式基准测试E.3 零样本图像任务E.3.1 数据集细节E.3.2 详细的零样本实验 F 在半监督VOS中与最新技术的比较的更多细节G 模型、数据和注释卡片G. 1 模型卡片G. 2 SA-V数据集卡片G.3 数据注释卡片 摘要
我们提出了“Segment Anything Model 2”(SAM 2),这是一种基础模型,旨在解决图像和视频中的可提示视觉分割问题。我们构建了一个数据引擎,该引擎通过用户交互改进模型和数据,以收集迄今为止最大的视频分割数据集。我们的模型采用带有流式内存的简单变换器架构,适用于实时视频处理。使用我们的数据进行训练的SAM 2在广泛的任务中表现出色。在视频分割方面,我们观察到比先前方法更高的准确性,同时所需的交互次数减少了 3 3 3倍。在图像分割方面,我们的模型比“Segment Anything Model”(SAM)更准确,速度快了