网站用php做的吗,全球商业网,灵犀科技 高端网站建设首页,建设网站制赛事进阶解读
关于赛事介绍#xff1a;
Better Synth 是一项以数据为中心的挑战赛#xff0c;考察如何合成与清洗图文数据以在多模态大模型上取得更优的图片理解能力。 本次比赛基于 Mini-Gemini 模型进行训练#xff0c;只关注于预训练#xff08;模态间对齐#xff09…赛事进阶解读
关于赛事介绍
Better Synth 是一项以数据为中心的挑战赛考察如何合成与清洗图文数据以在多模态大模型上取得更优的图片理解能力。 本次比赛基于 Mini-Gemini 模型进行训练只关注于预训练模态间对齐阶段的数据合成与清洗指令微调阶段为固定数据集。
主办方提供候选种子数据集要求参赛者基于种子数据集进行数据合成与清洗产出一份基于种子数据集的更高质量、更多样性的数据集并在给定计算约束下进行训练。
数据集产出流程中必须包含“合成”的过程。
基础模型MGM
LLaVa-based,包括两部分Two-stage: pretrainfine tuning 数据集组成
种子数据集400K
baseline精读
在最新的baseline中我提前帮大家做了缩减处理利用 DJ 的数据筛选算子我们可以先用最小的数据进行训练跑通之后再替换成更大的数据。
我们需要注意几个关键的训练参数配置分别是pretrain以及finetune这是全部环节中最重要的两个阶段。 如果没有成功运行这两个训练环节一切都将是徒劳
Task1里面我使用的是阿里云的服务器有点费钱后来出了AutoDL的教程于是我又用autodl平台跑了一遍基本分数差不多。收获就是跑了两遍baseline并解决了其中遇到的问题。 虽然钱没了但你可以和别人吹你跑过100多G的程序让他向你投来崇拜也可能是鄙视的眼光后扬长而去。额。。。
TextVQA 是一个用于评估基于图像中文本的视觉推理能力的数据集。这个数据集要求模型能够读取和理解图像中的文本以回答相关的问题。
MMBench 试图解决的问题是如何有效地评估大型视觉-语言模型Large Vision-Language Models简称LVLMs的性能。
Data-Juicer 是一个开源工具用于清洗和优化多模态数据集特别是那些用于训练视觉语言模型的数据集。
主要功能包括1数据清洗2质量评估3异常检测4数据增强
一些Data-Juicer中典型算子的介绍
1. 数据清洗算子
去重算子用于检测并移除数据集中的重复样本。格式校验算子验证数据样本是否符合预期的格式要求例如检查图像是否损坏或文本字段是否为空。异常检测算子检测并标记不符合常规的数据点例如极端值或异常行为。数据完整性检查算子确保所有必需的字段都存在且正确。
2. 质量评估算子
清晰度算子评估图像的清晰度去除模糊或低质量的图像。连贯性算子检查文本描述与图像内容之间的连贯性。语义一致性算子确保文本描述与图像内容在语义上一致。文本质量算子评估文本描述的质量例如语法正确性、拼写错误等。
3. 异常检测算子
标签一致性算子检查图像标签与内容的一致性。异常值检测算子使用统计方法识别和标记异常值。数据分布算子分析数据集中的分布模式帮助识别异常数据点。
4. 数据增强算子
图像增强算子通过旋转、翻转、颜色调整等操作来增加图像数据的多样性。文本改写算子通过同义词替换、句式变换等技术来丰富文本描述。上下文增强算子为文本描述添加额外的上下文信息以提高描述的丰富度。
5. 其他算子
采样算子用于从数据集中选择具有代表性的样本。合并算子将多个数据集合并成一个统一的数据集。分割算子将数据集按照一定规则分成训练集、验证集和测试集。
sandbox
在DJ中数据沙盒实验室为用户提供了持续生产数据菜谱的最佳实践其具有低开销、可迁移、有指导性等特点用户在沙盒中基于一些小规模数据集、模型对数据菜谱进行快速实验、迭代、优化再迁移到更大尺度上大规模生产高质量数据以服务大模型。
用户在沙盒中除了DJ基础的数据优化与数据菜谱微调功能外还可以便捷地使用数据洞察与分析、沙盒模型训练与评测、基于数据和模型反馈优化数据菜谱等可配置组件共同组成完整的一站式数据-模型研发流水线。 因为时间关系所以没法不断去重复实验。完整的成功跑完两次并提交结果。展示一下结果吧期待后续的上分 喜欢的小伙伴点赞收藏关注吧。