做网站的程序源码,wordpress有广告插件下载地址,asp双语企业网站源码,internet网站建设试卷2024年6月14日#xff0c;第六届“北京智源大会”在中关村展示中心开幕。 北京智源大会是智源研究院主办的“AI内行顶级盛会”#xff0c;以“全球视野、思想碰撞、前沿引领”为特色#xff0c;汇聚海内外研究者分享研究成果、探寻前沿知识、交流实践经验。2024北京智源大会…
2024年6月14日第六届“北京智源大会”在中关村展示中心开幕。 北京智源大会是智源研究院主办的“AI内行顶级盛会”以“全球视野、思想碰撞、前沿引领”为特色汇聚海内外研究者分享研究成果、探寻前沿知识、交流实践经验。2024北京智源大会邀请到了图灵奖得主姚期智OpenAI、Meta、DeepMind、斯坦福、UC Berkeley等国际明星机构与技术团队代表以及百度、零一万物、百川智能、智谱AI、面壁智能等国内主流大模型公司CEO与CTO汇聚了200余位人工智能顶尖学者和产业专家围绕人工智能关键技术路径和应用场景展开精彩演讲和尖峰对话。 开幕式由智源研究院理事长黄铁军主持。 智源研究院院长王仲远做2024智源研究院进展报告汇报智源研究院在语言、多模态、具身、生物计算大模型的前沿探索和研究进展以及大模型全栈开源技术基座的迭代升级与版图布局。 王仲远表示现阶段语言大模型的发展已经具备了通用人工智能非常核心的理解和推理能力并且形成了一条以语言大模型为核心对齐和映射其他模态的技术路线从而让模型具备了初步的多模态理解和生成能力。但这并不是让人工智能感知、理解物理世界的终极技术路线而是应该采取统一模型的范式实现多模态的输入和输出让模型具备原生的多模态扩展能力向世界模型演进。未来大模型将以数字智能体的形态与智能硬件融合以具身智能的形态从数字世界进入物理世界同时大模型这一技术手段可为科学研究提供新的知识表达范式加速人类对微观物理世界规律的探索与研究突破不断趋近通用人工智能的终极目标。 一、智源语言大模型
全球首个低碳单体稠密万亿语言模型Tele-FLM-1T
针对大模型训练算力消耗高的问题智源研究院和中国电信人工智能研究院TeleAI基于模型生长和损失预测等关键技术联合研发并推出全球首个低碳单体稠密万亿语言模型 Tele-FLM-1T。该模型与百亿级的52B版本千亿级的102B版本共同构成Tele-FLM系列模型。
Tele-FLM系列模型实现了低碳生长仅以业界普通训练方案9%的算力资源基于112台A800服务器用4个月完成3个模型总计2.3Ttokens的训练成功训练出万亿稠密模型Tele-FLM-1T。模型训练全程做到了零调整零重试算力能效高且模型收敛性和稳定性好。目前TeleFLM系列模型已经全面开源了52B版本核心技术生长技术、最优超参预测、训练细节loss曲线、最优超参、数据配比和Grad Norm等均开源期望技术开源可以对大模型社区产生有益促进。Tele-FLM-1T版本即将开源希望可以为社区训练万亿稠密模型提供一个优秀的初始参数避免万亿模型训练收敛难等问题。
Tele-FLM-52B 版本开源地址 https://huggingface.co/CofeAI/Tele-FLM
Tele-FLM-Chat 试用纯模型单轮对话版地址 https://modelscope.cn/studios/FLM/ChatFLM
在基础模型的性能方面BPB 显示英文能力上Tele-FLM-52B接近Llama3-70B优于 Llama2-70B和Llama3-8B中文能力上Tele-FLM-52B 为开源最强优于 Llama3-70B 和 Qwen1.5-72B。在对话模型性能方面AlignBench评测显示Tele-FLM-Chat52B已经达到GPT-4 中文语言能力的96%总体能力达到GPT-4 的80%。
通用语言向量模型BGE系列
针对大模型幻觉等问题智源研究院自主研发了通用语义向量模型BGEBAAI General Embedding系列基于检索增强RAG技术实现数据之间精准的语义匹配支持大模型调用外部知识的调用。自2023年8月起BGE模型系列先后进行了三次迭代分别在中英文检索、多语言检索、精细化检索三个任务中取得了业内最佳的表现综合能力显著优于OpenAI、Google、Microsoft、Cohere等机构的同类模型。目前BGE模型系列下载总量位列国产AI模型首位并被HuggingFace、Langchain、Llama Index等国际主流AI开发框架以及腾讯、华为、阿里、字节、微软、亚马逊等主要云服务提供商集成对外提供商业化服务。 二、智源多模态大模型
原生多模态世界模型Emu 3
行业现有的多模态大模型多为对于不同任务而训练的专用模型例如Stable Diffusion之于文生图Sora之于文生视频GPT-4V之于图生文。每类模型都有对应的架构和方法例如对于视频生成行业普遍参照Sora选择了DiT架构。但是现有模型的能力多为单一分散的能力组合而不是原生的统一能力例如目前Sora还做不到图像和视频的理解。
为了实现多模态、统一、端到端的下一代大模型智源研究院推出了Emu3原生多模态世界模型。Emu3采用智源自研的多模态自回归技术路径在图像、视频、文字上联合训练使模型具备原生多模态能力实现了图像、视频、文字的统一输入和输出。Emu3从模型训练开始就是为统一的多模态生成和理解而设计的目前具备生成高质量图片和视频、续写视频、理解物理世界等多模态能力。简单来说Emu3既统一了视频、图像、文字也统一了生成和理解。值得注意的是Emu3在持续训练中经过安全评估之后将逐步开源。 Emu1Emu2开源地址https://github.com/baaivision/Emu
轻量级图文多模态模型系列Bunny-3B/4B/8B
为适应智能端侧的应用智源研究院推出了轻量级图文多模态模型系列 Bunny-3B/4B/8B该模型系列采用灵活架构可支持多种视觉编码器和语言基座模型。多个榜单的综合结果表明Bunny-8B 的多模态能力可达到 GPT-4o 性能的 87%。目前Bunny 模型参数、训练代码、训练数据已全部开源。
开源地址https://github.com/BAAI-DCAI/Bunny 三、智源具身大模型
智源研究院具身智能创新中心在机器人泛化动作执行和智能大小脑决策控制等方面取得了多项世界级突破性成果。
全球领先真机实验成功率突破95% 的泛化抓取技术ASGrasp
在具身智能通用抓取能力方面针对跨任意形状和材质的泛化难题智源率先突破95%的真机实验成功率从而实现了全球领先的商业级动作执行水平。借助这项技术即使在复杂光线透射、反射的情况下我们的机器人依然能够准确感知包括透明、高反光物体的形状和姿态并预测出高成功率的抓取位姿。
分级具身大模型系统之能反思、可随机应变的铰接物体操作大模型系统SAGE
在分级具身大模型系统方面智源研发了能够从失败中重思考、再尝试的铰接物体操作大模型系统SAGE。该系统有效结合了三维视觉小模型对空间几何的精确感知能力和通用图文大模型的通用物体操作知识使大模型驱动的机器人能够在任务执行失败时能够重新思考并再次尝试新的交互方式实现了传统机器人技术无法企及的智能性和鲁棒性。
分级具身大模型系统之全球首个开放指令六自由度拿取放置大模型系统Open6DOR
在分级具身大模型系统方面智源还研发了全球首个能做到开放指令控制六自由度物体拿取放置的大模型系统Open6DOR。该系统不仅像谷歌RT系列大模型一样按照自然语言指令中的要求将物体放到指定位置还能够进一步对物体的姿态进行精细化控制。该项技术极大地提高了具身操作大模型的商业应用范围和价值。
全球首个端到端基于视频的多模态具身导航大模型NaVid
在面向技术终局的端到端具身大模型层面智源发布了全球首个端到端基于视频的多模态具身导航大模型NaVid。该模型可直接将机器人视角的视频和用户的自然语言指令作为输入端到端输出机器人的移动控制信号。不同于以往的机器人导航技术NaVid无需建图也不依赖于深度信息和里程计信息等其它传感器信号而是完全依靠机器人摄像头采集的单视角RGB视频流并在只利用合成导航数据进行训练的情况下通过Sim2Real的方式实现在真实世界室内场景甚至是室外场景的zero-shot真机泛化是一项勇敢而成功的前沿技术探索工作。
智能心脏超声机器人
智源研究院联合领视智远研发了全球首个智能心脏超声机器人实现了全球首例真人身上的自主心脏超声扫查可解决心脏B超医生紧缺诊断准确率不高标准化欠缺效率低的难题。基于超声影像和机械臂的受力信息智能心脏超声机器人可在高速动态环境下快速计算提取心脏特征实现了相当于自动驾驶L2、 L3 级的智能化水平。临床验证结果显示准确性上智能心脏超声机器人能和高年资医生保持一致稳定性上智能心脏超声机器人更高舒适性上智能超声机器人的力度可以控制在 4 牛以内更舒适效率上智能超声机器人实验机可与人类医生持平。
通用计算机控制框架Cradle
为实现通用计算机控制智源研究院提出了通用计算机控制框架Cradle让智能体像人一样看屏幕通过鼠标、键盘完成计算机上的所有任务。Cradle 由信息收集、自我反思、任务推断、技能管理、行动计划以及记忆模块等 6 个模块组成可进行 “反思过去总结现在规划未来”的强大决策推理。不同于业界其他方法Cradle不依赖任何内部API实现了通用性。目前智源研究院与昆仑万维研究院等单位合作在荒野大镖客、星露谷物语、城市天际线、当铺人生4款游戏以及Chrome、Outlook、飞书、美图秀秀以及剪映5种软件上对Cradle进行了验证。智能体不仅可以根据提示自主学习玩游戏还能对图片、视频进行有想象力的编辑。
未来智源将依托多模态大模型技术优势资源联合北大、清华、中科院等高校院所银河通用、加速进化等产业链上下游企业建设具身智能创新平台重点开展数据、模型、场景验证等研究打造具身智能创新生态。 四、智源生物计算大模型
全原子生物分子模型OpenComplex 2
此外智源研究院还探索了生成式人工智能应用于分子生物学中的应用。智源研究院研发的全原子生物分子模型OpenComplex 2是世界领先的大分子结构预测模型能有效预测蛋白质、RNA、DNA、糖类、小分子等复合物。在生物分子结构预测领域国际竞赛CAMEOContinous Automated Model EvaluatiOn中OpenComplex 连续2年稳居赛道第一并获得了CASPCritical Assessment of Techniques for Protein Structure Prediction15的RNA自动化赛道预测冠军。
OpenComplex 2 是基于全原子建模的生命分子基础模型科研人员发现不仅可以预测大分子的稳定结构还初步具备预测分子多构型以及折叠过程的能力。基于这样的能力生命科学家可以进一步探索蛋白质的生物学功能。目前智源已和研究伙伴在多项重要疾病上展开了研究提供成药性和分子机理研究。未来基于OpenComplex的能力我们有望能够开启生命科学研究的新纪元为进一步揭示如HIV病毒、神经元等复杂生命机理提供新的可能。
全球首个实时孪生心脏计算模型
智源研究院构建了全球首个实时孪生心脏计算模型可实现高精度的前提下生物时间/仿真时间比小于1位于国际领先水平。
实时心脏计算模型是虚拟心脏科学研究的开端是孪生心脏走向临床应用的基础。基于这一模型智源将创新性地采用物理-数据双驱动模型融合第一性原理和人工智能方法从亚细胞级、细胞级、器官级、躯干级仿真出一个“透明心脏”且能根据患者的临床数据构建出反映患者的个性化生理病理的孪生心脏从而进行药物筛选、治疗方案优化、术前规划等临床应用。
目前智源与北医一院共同成立了“北京大学第一医院-北京智源人工智能研究院心脏AI 联合研究中心”正在开展基于超声影像的急性心肌梗死诊断、心衰的病理仿真、肾动脉造影等课题与安贞医院合作进行室速疾病的无创心外膜标测技术的前沿研究与斯高电生理研究院开展药物筛选平台的开发与应用以及与清华长庚医院和朝阳医院合作开展肥厚性心肌病课题。 智源研究院作为创新性研究机构引领人工智能前沿技术的发展也发挥第三方中立、非营利机构的优势搭建公共技术基座解决当前产业的痛点。 FlagOpen大模型开源技术基座2.0模型、数据、算法、评测、系统五大版图布局升级
为帮助全球开发者一站式启动大模型开发和研究工作智源研究院推出了面向异构芯片、支持多种框架的大模型全栈开源技术基座FlagOpen 2.0在1.0的基础上进一步完善了模型、数据、算法、评测、系统五大版图布局旨在打造大模型时代的 Linux。FlagOpen 2.0可支持多种芯片和多种深度学习框架。目前开源模型全球总下载量超 4755 万次累计开源数据集 57 个下载量近9万次开源项目代码下载量超 51 万次。
开源地址https://github.com/FlagOpen 一、支持异构算力集群的大模型“操作系统”FlagOS
为满足不断攀升的大模型训练和推理计算需求应对大规模AI系统和平台面临的集群内或集群间异构计算、高速互联、弹性稳定的技术挑战智源研究院推出了面向大模型、支持多种异构算力的智算集群软件栈 FlagOS。FlagOS融合了智源长期深耕的面向多元AI芯片的关键技术包括异构算力智能调度管理平台九鼎、支持多元AI异构算力的并行训推框架FlagScale、支持多种AI芯片架构的高性能算子库FlagAttention和FlagGems集群诊断工具FlagDiagnose和AI芯片评测工具FlagPerf。FlagOS如同“操作系统”一样集异构算力管理、算力自动迁移、并行训练优化、高性能算子于一体。向上支撑大模型训练、推理、评测等重要任务向下管理底层异构算力、高速网络、分布式存储。目前FlagOS已支持了超过50个团队的大模型研发支持8种芯片管理超过4600个AI加速卡稳定运行20个月SLA超过99.5%帮助用户实现高效稳定的集群管理、资源优化、大模型研发。FlagOS的推出将为中国新一代智算中心的建设提供助力显著提升智算集群的能力水平加速大模型产业的发展。 二、首个千万级高质量开源指令微调数据集 InfinityInstruct
高质量的指令数据是大模型性能的“养料”。智源研究院发布首个千万级高质量开源指令微调数据集开源项目首期发布经过验证的300万条中英文指令数据近期将完成千万条指令数据的开源。智源对现有开源数据进行领域分析确保合理类型分布对大规模数据进行质量筛选保留高价值数据针对开源数据缺乏的领域和任务进行数据增广并结合人工标注对数据质量进行控制避免合成数据分布偏差。当前开源的300万条指令数据集已经显示出超越Mistral、Openhermes等的SFT数据能力。我们期待在提升到千万级数据量级后基座模型基于该指令微调数据集进行训练对话模型能力可达GPT-4 水平。
三、全球最大的开源中英文多行业数据集IndustryCorpus
为加速推进大模型技术的产业应用进程智源研究院构建并开源了IndustryCorpus中英文多行业数据集包含总计3.4TB预训练数据集其中中文1TB英文2.4TB覆盖18类行业分类准确率达到80%未来计划增加到30类。
智源通过构建多行业数据算子训练行业分类和质量过滤模型实现高效的高质量预训练数据处理流程并提出了一套提升精调数据集问题复杂度、解答思维链和多轮问答质量筛选的方法处理预训练、SFT和RLHF数据。
为验证行业数据集的性能表现智源训练了医疗行业示范模型对比继续预训练前的模型客观性能总体提升了20%而经过我们制作的医疗SFT数据集和DPO数据集的精调训练相对参考答案的主观胜率达到82%5分制多轮对话能力CMTMedQA评分达到4.45。
行业预训练数据集https://data.baai.ac.cn/details/BAAI-IndustryCorpus
医疗示范模型地址https://huggingface.co/BAAI/AquilaMed-RL
医疗示范模型SFT数据集地址https://huggingface.co/datasets/BAAI/AquilaMed-Instruct
医疗示范模型DPO数据集地址https://huggingface.co/datasets/BAAI/AquilaMed-RL
四、支持多元AI异构算力的并行训练框架FlagScale实现首次突破
FlagScale首次在异构集群上实现不同厂商跨节点RDMA直连和多种并行策略的高效混合训练成为业界首个在多元异构AI芯片上同时支持纵向和横向扩展两阶段增长模式的训练框架。
FlagScale支持语言及多模态模型的稠密及稀疏训练可实现1M长序列大规模稳定训练和推理支持基于国产算力的8x16B千亿参数MoE语言大模型1024卡40天以上的稳定训练实现端到端的训练、微调与推理部署支持不同架构的多种芯片合池训练基于业界领先的异构并行策略可达到85%以上的混合训练性能上界与同构芯片的模型训练效果一致适配8款国内外不同芯片可在不同集群进行规模训练验证实现Loss逐位与收敛曲线严格对齐。
五、面向大模型的开源Triton算子库
为更好地支持多元AI芯片统一生态发展智源研究院推出了面向大模型的开源Triton算子库包括首个通用算子库FlagGems和大模型专用算子库FlagAttention可基于统一开源编程语言大幅提升算子开发效率同时面向多元芯片共享算子库。
目前主流语言和多模态模型需要的127个算子通用算子库FlagGems已覆盖66个预计2024年底实现全覆盖。大模型专用算子库FlagAttention包含6种高频使用的且紧跟算法前沿的最新Attention类算子为用户提供编程范例可自定义算子。
应用了专为 pointwise 类别的算子设计的自动代码生成技术用户只需通过简洁的计算逻辑描述即可自动生成高效的 Triton 代码。该技术目前已经应用于31个pointwise类算子占算子库整体的47%。同时基于运行时优化技术算子运行速度提升70%保障了算子高性能。
六、FlagEval大模型评估全面升级
打造丈量大模型能力高峰的“尺子”乃是充满挑战的科研难题。智源秉持科学、权威、公正、开放原则不断推动评估工具和方法的迭代优化。FlagEval大模型评估自2023年发布以来已从主要面向语言模型扩展到视频、语音、多模态模型实现多领域全覆盖采用主观客观结合以及开卷闭卷综合的考察方式首次联合权威教育部门开展大模型K12学科测验与中国传媒大学合作共建文生视频模型主观评价体系。智源研究院已与全国10余家高校和机构合作共建评测方法与工具探索基于AI的辅助评测模型 FlagJudge打造面向大模型新能力的有挑战的评测集包括与北京大学共建的HalluDial幻觉评测集、与北师大共建的CMMU多模态评测集、多语言跨模态评测集MG18、复杂代码评测集TACO以及长视频理解评测MLVU等其中与北京大学共建的HalluDial是目前全球规模最大的对话场景下的幻觉评测集有18000多个轮次对话和14万多个回答。
智源研究院牵头成立了IEEE大模型评测标准小组P3419与hugging face社区合作发布多个榜单并将先进的评测数据以及裁判模型与新加坡IMDA合作共同贡献到AI Verify Foundation以促进在大模型评估方法和工具上的国际合作。 大模型先锋集结共探AGI之路
2024北京智源大会开幕式上OpenAI Sora及DALL·E团队负责人Aditya Ramesh纽约大学助理教授谢赛宁就多模态模型的技术路径以及未来演化方向进行了观点碰撞。 在智源研究院理事长黄铁军主持的Fireside Chat中零一万物CEO李开复中国工程院院士、清华大学智能产业研究院AIR院长张亚勤分别分享了对通用人工智能技术发展的趋势判断。 百度CTO王海峰“模型为通用人工智能带来曙光”的报告分享。 在通往AGI的尖峰对话中智源研究院王仲远与百川智能CEO王小川智谱AI CEO张鹏月之暗面CEO杨植麟面壁智能CEO李大海针对大模型的技术路径依赖与突破、开放生态与封闭研究、商业模式探索等热点话题展开深度讨论。 未来智源研究院将继续坚持原始技术创新做前沿方向的路线探索广泛链接学术生态赋能产业发展。