当前位置: 首页 > news >正文

网站可信度必须做吗比如做百度知道 .html,这些都是我们不可控制的网站!

网站可信度必须做吗,比如做百度知道 .html,这些都是我们不可控制的网站!,长春 网站建设,成都广告设计公司有哪些1. 摘要 本文主要通过分析模型结构和数据选择讨论如何构建一个好的多模态大模型#xff08;MLLM#xff09;#xff0c;并同时提出了MM1模型#xff0c;包括30B dense版本和64B的MoE版本。 具体贡献#xff1a; 模型层面#xff1a;影响效果的重要性排序为#xff1a;…1. 摘要 本文主要通过分析模型结构和数据选择讨论如何构建一个好的多模态大模型MLLM并同时提出了MM1模型包括30B dense版本和64B的MoE版本。 具体贡献 模型层面影响效果的重要性排序为image resolutionvisual encoder loss和capacity和visual encoder预训练数据。multimodal预训练数据类型image captioninterleaved image-text和text-only。 在few-shot和text-only上的表现interleaved image-text和text-only两种数据最为重要。在zero-shot上的表现image caption数据最为重要。 以上两种特性在SFT阶段也有体现。 通过扩大LLM大小的方式进行scale up。模型大小分别有3B7B30B等。 2. 方法和实验 2.1 简介 这部分主要探索三个结构数据和训练步骤对多模态大模型效果的影响 模型基础配置 Image EncoderViT-L/14模型训练loss为clip loss训练数据DFN-5B和VeCap-300Mimage size为336*336Vision-Language ConnectorC-Abstractor最大输出144 image token。Pre-training Data45% image caption数据45% interleaved image-text数据和10% text-only数据。Language Model 1.2B transformer decoder-only模型。 2.2 模型结构影响 2.2.1 Image Encoder Pre-training Image Encoder的选择对多模态大模型的预训练和微调都有很大的影响。 contrastive loss能让image encoder学习到语义知识。示例模型CLIPReconstructive loss在一些dense prediction上clip类模型很难达到很好的效果比如说VQA和caption这类任务需要对image有很好的理解。示例模型AIM小结 Image resoluton最为重要其次是model size和训练数据组成。从上图中可以看出增加image resolution效果最为明显而增加model size和数据效果提升在1%左右。模型类型对比学习loss训练的模型比reconstructive loss训练的模型效果要好。但这个结论并不确定因为AIM模型训练数据较少。 2.2.2 Vision-Language Connector and Image Resolution 配置 使用64或144个token代表每个image有两个不同的resolution224和336.结构选择 average pooling对ViT输出结果使用n*n average pooling然后接上linear projection。n[8, 12]attention pooling使用k learnable queries通过改变k来改变输出到LLM的image token数。k[64, 144]Convolutional mappingC-Abstractor moduleResNet blockthrough adaptive pooling can change the number of image tokens。 小结visual token数和image resolution最为重要VL connector有少量影响。在instruction tuning阶段这三种结构在不同的分辨率和image token时有着相似的结果。 2.3 预训练数据影响 小结 Interleaved data对few-shot和text-only的表现最为重要captioning data对zero-shot表现比较重要。Text-only数据对few-shot和text-only表现有帮助。细致的混合image和text数据能够得到最优的多模态性能和好的文本性能。最好的比例为captioninterleavedtext5:5:1。合成数据对few-shot有帮助。 2.4 训练步骤 模型参数和学习率关系 具体关系如下 3. 结论 MM1模型预训练参数 Image EncoderViT-H分辨率378*378训练数据DFN-5BCLIP objectiveVision-Language ConnectorVL connection with 144 tokens选择用C-AbstractorData45% interleaved image-text documents, 45% image-text pair documents, and 10% text-only documents.超参batch size512max sequence lenght4096LR schedule在初始的2000步linear warmup然后在2e5训练步数中降到10%。使用AdamW优化器在30B模型训练中加上z-loss。 pretrain 效果如下 SFT数据配比 参考文献 MM1: Methods, Analysis Insights from Multimodal LLM Pre-training
http://www.w-s-a.com/news/833471/

相关文章:

  • 家教网站怎么做网站建设品牌推荐
  • 青岛做外贸网站建设茶叶公司网站建设策划书
  • 个人电脑做网站主机三合一网站
  • 用html框架做网站怎么在.Net中做团购网站
  • 怎样建一个自己公司的网站制作网站需要钱吗
  • 联盟网站制作wap网站制作公司
  • 美丽乡村建设发展论坛网站wordpress 仿站 教程网
  • 浙江省建设注册管理中心网站首页优设设计网站导航
  • 台州小型网站建设国内免费的建网站平台
  • 自己做网站不推广网站建设工作室发展
  • 有女人和马做网站吗宁波seo优势
  • 网站做用户记录表电商运营推广计划方案
  • 网站备案认领杭州网页设计公司招聘
  • 易签到网站开发设计做网站运营有前途吗
  • 南通网站建设心得2023必考十大时政热点
  • 苍溪建设局网站公建设计网站
  • 九歌人工智能诗歌写作网站电子商务网站建设项目书
  • 做外贸的经常浏览的三个网站律师做哪个网站好
  • 中国公路建设招标网站长沙大型网站建设公司
  • 沈阳企业网站模板建站注册电子邮箱免费注册
  • 如何做简洁网站设计企业网站排名优化方案
  • 东莞网站建设服务商做触屏网站
  • 外国网站代理音乐网站建设
  • 珠江网站建设广安广告公司
  • 高端创意网站建设网页制作咨询公司
  • 网站建设及发布的流程图wordpress文章摘要显示
  • 淮北网站网站建设省好多会员app
  • 如何查看网站的更新频率网站图片要求
  • 网站设计公司收费标准wordpress修改文章链接
  • 镇江网站建设公司网站关键词密度怎么计算的