白银网站建设公司,济宁vi设计公司,网络违法犯罪举报网站,对外贸易网站有哪些多模态——多功能的“小脑”
人类具有眼耳鼻舌身意#xff0c;说明对于物理世界的充分感知和理解#xff0c;是意识和智慧的来源。而传统AI更多的是被动观测#xff0c;主要是“看”#xff08;计算机视觉#xff09;和“读”#xff08;文本NLP#xff09;#xff0c…多模态——多功能的“小脑”
人类具有眼耳鼻舌身意说明对于物理世界的充分感知和理解是意识和智慧的来源。而传统AI更多的是被动观测主要是“看”计算机视觉和“读”文本NLP这就使得智能体Agent缺乏对外部环境的通用感知能力。
多模态大模型可以积累和分析2D/3D视觉、LiDAR激光、Voice声音等多维信息基于真实交互为具身大模型积累高质量数据深度理解并转化为机器指令来控制机器人的行为。有了感知能力更丰富的“小脑”具身智能自然也就能更好地理解物理世界。 具身智能——精准决策和执行的“躯干”
传统的机器人训练往往采取离线模式一旦遇到训练环境中没有出现过的问题就可能掉链子需要收集数据再重新迭代优化这个过程的效率很低也减慢了具身智能在现实中落地的速度。
大模型时代具身智能模型的训练与测试与云服务相结合可以在云上虚拟仿真场景下进行端到端的实时训练与测试快速完成端侧迭代与开发这就大大加速了具身智能体的进化速度。
具身智能体在模拟出来的场景中无数次地尝试、学习、反馈、迭代积累对物理世界的深度理解产生大量交互数据再通过与真实环境的不断交互积累经验全面提升在复杂世界的自动移动、复杂任务的泛化能力展现在具身载体上就是机器人可以更好地适应环境更灵活地运用机械“躯干”来进行人机交互。
技术实现路线
目前对具身智能的技术实践主要以两种路线为主
1. 以谷歌、伯克利等为代表的“未来派”期望“一步到位”。
他们从具身智能的终极目标出发希望从当下到终点寻找一个端到端的技术路径即给出一个大模型就能让机器人完成识别环境、分解任务、执行操作等所有工作非常难也非常有未来感。
谷歌DeepMind提出的机器人模型Robotics Transformer 2RT-2就是一个全新的视觉-语言-动作VLA模型它从网络和机器人数据中学习并将这些知识转化为机器人控制的通用指令同时保留了web-scale能力。即一个在web-scale数据上进行预训练的视觉-语言模型VLM正在从RT-1的机器人数据中学习以成为可以控制机器人的视觉-语言-动作VLA模型RT-2。 加州大学伯克利分校的LM Nav则通过视觉模型、语言模型、视觉语言模型 CLIP等三个大模型让机器人在不看地图的情况下按照语言指令到达目的地。Koushil Sreenath教授的工作就是推动硬件本体、运动小脑、决策大脑三部分逐渐融合让各种四足、双足以及人形机器人在真实世界中灵活地运动。
2. 以英伟达及大量工业机器人厂商为代表的“务实派”期望“马上见效”。
简单来说就是不同任务通过不同模型来实现分别让机器人学习概念并指挥行动把所有的指令分解执行通过大模型来完成自动化调度和协作比如语言大模型来学习对话、视觉大模型来识别地图、多模态大模型来完成肢体驱动。
这种方式虽然底层逻辑上看还是比较机械不像人一样有综合智能但成本和可行性上能让具身智能更快落地。