网站设计的经营范围,免费ppt模板年终总结,衡水市住房和城乡规划建设网站,开个网站卖机器怎么做今天分享的是人形机器人系列深度研究报告#xff1a;《2023人形机器人行业海外科技研究#xff1a;从谷歌看机器人大模型进展》。
#xff08;报告出品方#xff1a;华鑫证券#xff09;
报告共计#xff1a;26页 大模型是人形机器人的必备要素
长期来看#xff0c;人…今天分享的是人形机器人系列深度研究报告《2023人形机器人行业海外科技研究从谷歌看机器人大模型进展》。
报告出品方华鑫证券
报告共计26页 大模型是人形机器人的必备要素
长期来看人形机器人的最大优势在于通用性:
人形机器人的特点在于泛化能力。如果只为解决单一或少数场景的应用则特定专用机器人足以满足要求(如酒店服务机器人扫地机器人等从第一性原理来说机器人之所以拟人其根本目的在于完成多样化的任务一一能爬楼梯能按电梯能提重物等完成所有人类所需的各种任务
通用性的实现依赖大模型的应用 (体现在感知与识别) :
大模型具有庞大的先验知识库与强大的通识理解能力。可以满足人形机器人通用性的场景要求和技能要求。不再仅限于完成某一类特定工作而是进一步完成多类型任务。目前机器人的应用基础是代码机器人工程师需要编写代码和规范来控制机器人行为这个调试过程缓慢、昂贵且低效使用场景有限。ChatGPT带来一种新的机器人应用范式我们可以通过LLM将自然语言快速转换为代码。这样就可以解决大量的场景以及任务需求有望大幅度降低了算法开发的复杂度同时可以简化合并算法模型数量提升开发效率。而传统算法模型即使经历大量的训练仍存在较多小概率场景(corner case) 难以零盖泛化能力较低。 大模型是人形机器人的必备要素
人形机器人大模型所需的视频数据足够充足 (体现在后续的动作)
深度学习的本质是模仿可以用大量的人类视频来进行预训练/模仿学习之后再通过标注用Reinforcement Learning进行微调。机器人做成人形也是为大模型在机器人上的发展铺垫。
思维链条
思维链(Chain of ThoughtCoT)是一种思维工具通过逐步延伸和拓展一个主要想法帮助人们进行更深层次的思考并得出更复杂、更全面的结论。在机器人大模型上思维链可以帮助机器人拆分与分解一件事件如何完成增加了先解码出计划的步骤再解码需要完成任务需要输出的动作在需要语义推理任务上效果更好。
在谷歌7月发布展示的具身大模型中RT-2中机器人展示了类似视觉语言模型 (VLM) 的思维链如: 选出与其他物品不同的物品:告诉机器人很困让机器人拿饮料机器人会拿红牛:让机器人完成锤钉子任务但桌子上只有耳机线、石头、纸使用思维链后机器人会拿石头等。 SayCan谷歌机器人大模型的开端连接LLM与具身智能
• 2022 年4月谷歌推出 Say-can 模型。将任务拆分成两个部分先是 “Say”模型通过与谷歌的大语言模型结合 把获得的任务进行分解找到最适合当前行动之后是“Can”模型计算出当前机器人能够成功执行这一任务的概率。 机器人通过将二者结合起来进行动作。例子对机器人说“我的饮料撒了你能帮助我吗”机器人会首先通过语言模型 进行任务规划这时可能最合理的方式是找到一个清洁工、找到一个吸尘器找一块海绵自己擦等。然后机器人会通过价 值函数计算出作为机器人找到海绵自己擦是最佳方案。之后机器人就会选择寻找海绵的动作。
• 亮点首次引入大语言模型帮助理解任务选择合适的任务规划。
• 不足机器人的动作仍然是预设好的因此只能完成特定任务。底层技能通用性和泛用性较差。只能输出高级指令。 RT-1用于动作控制的端到端模型
• 原理RT-1模型输入图片以及自然语言指令通过基于image net图像分类数据集的高效卷积神经网络将其输出成 为一系列与图片中任务相关的token,通过特征学习器将其转换成压缩的图像特征image token经过Transformer模型 解码得到离散的动作指令。
• 亮点将任务通过Saycan拆分成具体的任务然后使用RT-1去执行。可以执行700个现实中文字指令并且泛用到新的 任务中可以在三个未见过的厨房执行任务。可以接受图片作为输入。训练了宝贵的数据集供使用使用13个机器人历 经17个月收集了超过13万个轨迹。端到端的控制模型。
• 不足对新任务的泛化实际上是以前见过的案例只能接受出现过的指令。本质上是模仿学习无法超越数据集的遥操 作。严格意义上不是“大模型”无法从互联网规模internet-scale数据中受益。 PaLM-E多模态视觉语言具身大模型VLM
• 原理由谷歌大语言模型PaLM与拥有220亿个参数的最大视觉模型ViT-22B结合而成输入连续的视觉、状态、文字之 后在已经预训练的大语言模型PaLM基础上进行端到端训练用于多个具体任务包括顺序机器人操作规划、视觉问题解 答和图像视频字幕描述。最终输出文本形式的高级任务指令可以是问题的答案也可以是PaLM-E以文本形式生成的一系 列决策这些决策应由机器人执行。
• 亮点让机器人能够接收持续的多模态的输入包括文本图片状态以及其他传感器模态连续信息以类似于语言 标记的方式注入到语言模型中并具有一定的推理能力。参数量级有明显提升5620亿的参数模型。
• 不足本质为大语言模型对于动作的完成和指导较弱。只解决机器人的高级别指令没有更基础层级的具体运动控制 相关指令。 RT-2控制机器人的视觉 - 语言 - 动作VLA大模型
• 原理机器人数据仍然稀缺的背景下收集到海量机器人数据难度太大。因此谷歌RT-2抛弃了RT-1从头训练 Transformer模型的方式而是直接采用已有的视觉语言模型VLM作为主模型再使用更适合机器人任务的方法对其进行微调结合RT-1的视觉/语言/机器人动作数据集与互联网级别数据共同微调co-fine-tuning最终输出机器人行为字符串。
• 在这种训练方式下机器人模型拥有一个已经预训练好的VLM模型可以理解成一个互联网数据级别的常识系统能够 识别物体、了解物体。而在后续的微调阶段再加入机器人实际抓取物体的数据集。
• 效果在符号理解推理和人类识别三项考核中RT-2的正确率是对照组RT-1/VC-1的三倍。而在泛化性上没见 过的物体没见过的背景没见过的环境等方面RT-2相比对照组有一倍的提升。
• 亮点包含chain of thought的第一次涌现。直接 生成较为具体的运动人运动指令。既能够从互联网规 模数据中学习RT-1做不到又能够输出机器人所 需的具体的动作指令。SayCan、PaLM-E做不到。 相较于SayCan与RT-1的分拆执行的双层模型架构 RT-2在训练模型时候就学习视觉、语言、机器人行为 直接产生动作输出。
• 不足场景仍然局限主要为桌面任务。虽然RT-2 对于物体和位置的认知拥有了互联网级别的数据训练 可以去拓展新的任务但是具体动作微调较为依赖 RT-1的数据集而此类数据仍然较为昂贵。本质上大 模型主要还是体现在VLM相关方面也就是在语言和 视觉概念在物理控制层面没有办法获得更强的能力。 后期改善将依赖于视频学习的方法。最后目前运行 VLA模型的成本仍然太高后续希望能够有更多新的 底层架构VLM模型出炉。目前论文主要是PaLM-E 和PaLI-X RT-X具身智能大数据集Open X加持的RT-2与RT-1
• 背景希望能够开发一个通用X-robot可以高效地适应到新的机器人、任务、环境。
• 原理创造了新能的具身智能大数据集Open X汇集了来自21个机构的22个不同机器人的数据包含527个技 能和160266个任务。并用此数据集训练前述的机器人模型RT-1和RT-2得到新的模型RT-1-X与RT-2-X。
• 效果RT-1-X模型较原有RT-1或数据集原始模型的成功率有50%的提高值得注意的是RT-1-X与RT-1的架构是相同的因此性能的提高 完全是依靠数据训练的提升。 RT-2-X模型能够展现RT-2此前所不具备的技能比如对相对和绝对位置的认知。在涌现能力上RT-2-X也是RT-2的三倍。