.加强网站安全建设,伪静态网站入侵,做网站公司哪家公司,东营网新闻前言
前几天#xff0c;一在长沙的朋友李总发我一个英伟达HOVER的视频(自从我今年年初以来持续不断的解读各大顶级实验室的最前沿paper、以及分享我司七月在具身领域的探索与落地后#xff0c;影响力便越来越大了#xff0c;不断加油 )#xff0c;该视频说的有点玄乎…前言
前几天一在长沙的朋友李总发我一个英伟达HOVER的视频(自从我今年年初以来持续不断的解读各大顶级实验室的最前沿paper、以及分享我司七月在具身领域的探索与落地后影响力便越来越大了不断加油 )该视频说的有点玄乎但我还是记住了这个工作
这两天仔细看了下HOVER的论文原来这个工作是与之前本博客内介绍过的H2O、OmniH2O的工作是一脉相承的包括这三篇论文的一作都是Tairan He(只是HOVER想做的是统一各个控制模式——H2O OmniH2O/ExBody/HumanPlus且让各个模式之间可以自由切换)
顺带我们也回顾下本博客内已经介绍过的各种人形机器人
Open-television也是HOVER的第1篇参考文献UC San Diego的三大机器人AnyTeleop、Open-TeleVision、Bunny-VisionPro——从RGB相机到VR远程控制机器人Okami是HOVER第3篇参考文献从根据视频学习的SeeDo(VLM生成规划和代码)到UT Austin的两大人形机器人OKAMI、HarmonDigitHOVER的第4篇参考文献带RL的机器人从类似预测下一个token的伯克利Digit到CMU 18万机器人OmniH2O第9篇参考文献作者是Tairan He, Zhengyi Luo, Xialin He, Wenli Xiao, Chong Zhang, Weinan Zhang, Kris Kitani, Changliu Liu, Guanya Shi H2O第10篇参考文献作者是Tairan He, Zhengyi Luo, Wenli Xiao, Chong Zhang, Kris Kitani, Changliu Liu, Guanya ShiOmniH2O——通用灵巧且可全身远程操作并学习的人形机器人(其前身H2O是HumanPlus的重要参考)ExBody第12篇参考文献作者是Xuxin Cheng, Yandong Ji, Junming Chen, Ruihan Yang, Ge Yang, Xiaolong Wang从MDM、RobotMDM到UC San Diego的Exbody——人体运动扩散模型赋能机器人的训练HumanPlus第13篇参考文献HumanPlus——斯坦福ALOHA团队开源的人形机器人融合影子学习技术、RL、模仿学习 第一部分 HOVER
1.1 HOVER提出的背景及相关工作
1.1.1 背景
人形机器人是一种多功能的形态支持多种机器人任务和应用包括双手操作[1–3即open-television、Learning visuotactile skills with two multifingered hands、Okami]、双足行走[4–7]和灵活的全身控制[8–14]。尽管这些努力展示了令人印象深刻的成果每个项目都根据其特定任务和场景使用了不同的全身控制公式
一些使用根速度跟踪[5-Reinforcement learning for versatile, dynamic, and robust bipedal locomotion control,6-Humanoid parkour learning]来支持行走 一些选择关节角度跟踪[12-ExBody,13-HumanPlus]以实现富有表现力的动作 还有一些使用选定身体关键点的运动学跟踪[9-OmniH2O,10-H2O]来支持远程操作虽然这些方法在运动跟踪的最终目标上相似但它们需要任务特定的控制器接口和奖励设计。这不仅使开发过程重复且耗时还限制了最终全身控制器的多功能性 例如使用根速度跟踪[5,6]在不平坦地形上进行双足行走的机器人将难以无缝切换到需要精确双手操作的任务此时可能需要关节角度或末端执行器跟踪[2,12,13]。这些任务特定的依赖性限制了多功能性因为每个控制器都被限制在单一的控制模式 除了运动跟踪之外许多预训练的操作策略[15-Open x-embodiment: Robotic learning datasets and rt-x models,16-Openvla: An open-source vision-language-action model]需要在不同的配置空间中运行例如关节角度和末端执行器位置。这种变化性突显了需要一个统一的低级人形控制器能够适应多种控制模式配置 说白了就是大家用的算法或控制策略可能在某一套硬件上能比较好的work但可能换到另一个硬件上则不一定能很好的work尽管它们都是机器人
1.1.2 HOVER及其优势
为此来自NVIDIA、CMU、UC Berkeley、UT Austin(得克萨斯大学奥斯汀分校)、UC San Diego的研究者们
Tairan He*1,2(他是a second-year Ph.D. student at the Robotics Institute at Carnegie Mellon University, advised by Guanya Shi and Changliu Liu. I am also a member of NVIDIA GEAR group led by Jim Fan and Yuke Zhu)Wenli Xiao*1,2、Toru Lin1,3、Zhengyi Luo1,2、Zhenjia Xu1、Zhenyu Jiang1,4、Jan Kautz1Changliu Liu2、Guanya Shi2Xiaolong Wang1,5Linxi Jim Fan†1、Yuke Zhu†1,4「以上标粗的同时也是OmniH2O的作者且最后两个作者带的†表示是GEAR Team Leads」
提出了HOVER
其是一个用于人形全身控制的统一神经控制器——旨在学习一种统一的控制策略可以直接用于使用不同控制模式控制真实的人形机器人「we aim to learn a unified control policy that can be directly used to control real humanoids using different control modes」
如下图所示4个机器人分别代表H2O模式、OmniH2O模式、ExBody模式、HumanPlus模式但不同控制模式下背后对应的策略可以统一为HOVER策略 且其支持如下图图1所示的多种控制模式包括用于真实世界应用的超过15种有用模式且适用于19自由度的人形机器人 这种多功能的命令空间涵盖了大多数先前工作中使用的模式[9,10,12,13]。为了确保在任务中具有良好泛化能力的稳健运动技能基础作者训练了一个预言机运动模仿器以模仿来自MoCap的大规模人类运动数据[17]涵盖多种类型运动和控制目标且还通过策略蒸馏过程将这些运动技能从原始策略转移到一个能够处理多种控制模式的“通用策略”中。结果表明生成的多模式策略不仅支持多样的控制模式而且在下图图3中展示的结果显示「在相应模式下之前工作的专家蓝色与HOVER的通用策略绿色之间的比较。使用的指标是上/下关节误差弧度、全局/局部身体位置误差毫米、根速度误差米/秒和根旋转误差弧度。这些指标评估每种策略在不同控制模式下对参考动作和关节配置的跟踪准确性」其性能优于为每种模式单独训练的策略 作者假设这是因为策略利用了跨模式共享的物理知识例如维持平衡、类人运动和精确的肢体控制。这些共享技能增强了泛化能力从而在所有模式下实现更好的性能 他们宣称相比之下单模式策略通常对特定的奖励结构和训练环境过拟合限制了其适应性。HOVER的多模式通用策略还实现了模式之间的无缝切换使其既稳健又多才多艺
1.2 HOVER的方法
1.2.1 面向目标的RL用于人形控制
作者将问题表述为一个目标条件强化学习任务其中策略被训练用于跟踪实时的人体运动
状态包括代理的本体感受和目标状态 其中目标状态提供了目标运动目标的统一表示(在原论文中第II-B节详细描述)利用代理的本体感受和目标状态定义奖励 用于策略优化动作表示目标关节位置这些位置被输入到PD控制器中以驱动机器人的自由度。且作者采用近端策略优化PPO算法 [18] 来最大化累计折扣奖励 该设置被框定为一个命令跟踪任务其中人形机器人学习在每个时间步跟随目标命令 上面HOVER这里的表述与H2O、OmniH2O的表述是一致的(关于H2O/OmniH2O的介绍如本文开头所说详见此文OmniH2O——通用灵巧且可全身远程操作并学习的人形机器人(其前身H2O是HumanPlus的重要参考)) H2O中1 将学习任务表述为一个由状态集S、动作集A、转移动态T、奖励函数R和折扣因子γ组成的马尔可夫决策过程(MDP) 其中状态、动作代表轨迹、代表奖励函数 且状态包含本体感知和目标状态——人类远程操作者全身运动的统一表示2 基于本体感觉和目标状态可以定义用于策略训练的奖励 动作指定了 PD 控制器将用于驱动自由度的关节目标位置 然后应用近端策略优化PPO[52] 来最大化累积折扣奖励OmniH2O则也一致基于本体感知、目标状态和动作定义奖励 1.2.2 仿人控制的命令空间设计
在腿式运动中根速度[19]或位置跟踪[20]是常用的命令空间。然而仅关注根跟踪会限制仿人机器人的全部能力尤其是在全身运动操作任务中
作者观察到尽管先前的工作[9,10,12,13]引入了具有不同优缺点的控制模式但每种模式通常都针对特定任务子集进行定制因此缺乏通用仿人控制所需的灵活性。相反作者的目标是设计一个综合控制框架以适应各种场景并对各种人形任务皆具有适应性
为实现这一目标命令空间必须构建以满足以下关键标准
通用性命令空间应涵盖大多数现有配置允许通用控制器在不牺牲性能或多功能性的情况下替换任务专用控制器。该空间应具有足够的表达能力以便与现实世界的控制设备接口包括如图1所示的操纵杆、键盘、动作捕捉系统、外骨骼和虚拟现实VR头戴设备原子性命令空间应由独立的维度组成使得控制选项可以任意组合以支持各种模式
基于这些标准作者为人形机器人全身控制定义了一个统一的命令空间。这个空间由两个主要控制区域组成——上半身控制和下半身控制——并包含三种不同的控制模式
运动学位置跟踪机器人关键刚体点的目标3D位置局部关节角度跟踪每个机器人电机的目标关节角度根部跟踪目标根部速度、高度和方向由滚动、俯仰和偏航角指定
在作者的框架中如下图图1所示 引入了一个独热掩码向量来指定指令空间中哪些组件被激活用于跟踪。最近关于基于学习的人形全身控制的工作[9,10,12,13]如下表表I所示可以视为他们统一指令空间的子集每个子集代表特定的配置 1.2.3 动作重定向从人到SMPL再到人形上
最近的研究表明从大型动作数据集中学习鲁棒的全身控制对人形机器人具有优势[9,10,12,13]。从人类动作数据集[17]到人形动作数据集的重定向过程分为三个步骤
步骤1首先使用正向运动学计算人形机器人的关键点位置将其关节配置映射到工作空间坐标步骤2接下来通过优化SMPL参数以匹配正向运动学计算的关键点使SMPL模型符合人形机器人的运动学步骤3最后通过梯度下降匹配拟合的SMPL模型和人形机器人之间的对应关键点重新定向AMASS数据集PS关于什么是AMASS详见此文HumanPlus——斯坦福ALOHA团队开源的人形机器人融合影子学习技术、RL、模仿学习的1.1.2节即用于全身控制的low-level policy通过AMASS离线数据RL训练HST(含重定位)
过程中遵循与[10-H2O]相同的动作重定向和“模拟到数据”程序将大规模人类动作数据集[17]转换为仅包含对人形机器人可行动作的数据集
1.2.4 从大规模人类动作中训练Oracle策略相当于教师/特权策略
在状态空间设计上作者训练一个oracle运动模仿器(其有对应的本体感受和目标状态而从本体感受到目标状态所用的行动策略就相当于OmniH2O的特权或教师策略) 本体感觉被定义为 其中包含人形刚体的位置方位线速度角速度以及前一个动作目标状态被定义为 其中包含参考姿态以及所有人形刚体的参考状态与当前状态之间的一帧差异作者使用与[9-OmniH2O]相同的策略网络结构一个三层MLP层维度为[512,256,128]
下图是HOVER论文原文 其在H2O中是如下定义的 具体来说对于特权策略——privileged policy 其本体感受定义为 其中包含了人形机器人的所有刚体的全局三维位置、方向、线速度和角速度 目标状态定义为 下图是H2O论文原文至于OmniH2O中也会训练一个特权运动模仿器 本体感觉被定义为 其中包含类人刚体的位置、方向、线速度、角速度 以及前一个动作 目标状态被定义为 其中包含参考姿态以及类人所有刚体的参考状态与当前状态之间的单帧差异 下图是OmniH2O论文原文 在奖励设计和领域随机化(Domain Randomization)上作者将奖励公式化为三个组成部分的总和1惩罚2正则化3任务奖励详细信息见下表表 II 作者遵循[9-OmniH2O]中的相同域随机化来随机化模拟环境和人形的物理参数以实现成功的模拟到现实的转移
1.2.5 通过蒸馏的多模式多功能控制器
对于学生策略中的本体感受「学生策略相当于OmniH2O中的real」
从先知教师蒸馏而来的学生策略本体感受定义为 其中 是关节位置 是关节速度是基座角速度 是重力向量是动作历史 根据 [9]作者将这些项在最近的 25个步骤中堆叠起来以表示学生的本体感受输入 而在OmniH2O中 OmniH2O设计的控制策略通过使用运动学参考动作作为中间表示使其兼容多种输入来源。由于估计全身运动包括旋转和平移较为困难特别是从VR头戴设备获取故选择仅通过位置来控制人形机器人进行远程操作 具体而言 对于真实的操控, 目标状态是 上标“真实”表示使用来自VR头显的3个可用点头部和双手。对于其他控制接口例如RGB、语言他们使用相同的3点输入以保持一致性尽管可以轻松扩展到更多关键点以减少歧义对于本体感觉学生策略 使用在现实世界中易于获取的值包括 关节自由度位置 关节速度 根部角速度 根部重力 先前动作 对于命令掩码
如下图图2所示学生策略的任务命令输入是通过基于模式和基于稀疏性的掩码来定义的 具体而言学生的任务命令输入表示为 模式掩码选择特定的任务命令模式独立地控制上半身和下半身。例如上半身可以跟踪运动学位置而下半身则专注于关节角度和根部跟踪如图2所示
在模式特定的遮罩之后应用稀疏遮罩Msparsity。例如在某些场景中上半身可能只跟踪手的运动学位置而下半身则仅跟踪躯干的关节角度。模式和稀疏二进制遮罩的每一位都来自于伯努利分布B(0.5)。模式和稀疏遮罩在剧集开始时随机化并在剧集结束前保持不变
在策略蒸馏上作者使用DAgger框架[21]进行策略蒸馏
对于每个回合作者在模拟中展开学生策略 以获得 的轨迹在每个时间步还计算相应的oracle状态 利用这些oracle状态可以查询oracle教师策略 以获得参考动作然后通过最小化损失函数 来更新学生策略 其中是来自oracle的参考动作而是学生策略采取的动作 而在OmniH2O中 其按照DAgger[51]框架训练可部署的远程操作策略 对于每个回合在模拟中运行学生策略 来获得 的轨迹 通过使用参考姿态和模拟的人形状态可以计算特权状态然后使用对进行查询 向教师 请求计算参考动作为了更新损失函数为 第二部分 实验与论证
作者在运动跟踪上对HOVER进行了评估包括模拟环境第III-A和第III-B节和现实环境第III-C节。在模拟中作者使用重定向的AMASS数据集进行评估
在现实世界中作者测试了20个静态运动序列重点是定量跟踪和定性多模式控制的运动任务。他们的实际机器人采用了一个19自由度的UnitreeH1平台[23]总重约为51.5公斤高度约为1.8米。基准
为了解决「Q1: HOVER作为一个通用策略能否超越为特定指令配置训练的策略」和「Q3HOVER 能否转移到现实世界的硬件上并执行多样化的多模态控制」作者将HOVER与几位(特定场景的机器人策略)专家进行比较
如下表表I所示 ExBody [12]专注于跟踪上半身关节角度和根速度HumanPlus[13]跟踪全身关节和根速度H2O [10]跟踪八个关键点肩膀、肘部、手、脚踝的运动学位置而OmniH2O [9]跟踪头部和双手的运动学位置
此外作者还比较了其他有用的跟踪模式例如左手模式、右手模式、双手模式、仅头部模式
对于每种控制模式作者仅向控制器提供相关的观察输入并使用RL训练专家基准。例如在仅左手模式中仅提供左手的参考运动为了解决Q2作者与另一种多模式RL策略进行比较该策略在目标命令上遵循相同的掩蔽过程但从头开始以RL目标训练基准。在多模式RL基准训练期间模式和稀疏性在每个情节开始时随机化并在情节结束前保持不变这与蒸馏过程中随机化掩蔽过程相同
在具体指标的计算上他们会报告生存率其中如果人形机器人撞击地面而不是用脚着地情节就会终止。作者根据运动姿态、关节角度和根部扭曲及旋转来计算跟踪误差
指标的平均值是在数据集的所有运动序列中计算的
且通过比较全身位置的跟踪误差毫米相对于根部的每关节平均误差MPJPE毫米关节跟踪误差弧度根部速度米/秒根部方向跟踪误差弧度
等指标来评估策略模仿参考动作的能力
为了展示物理现实感他们还会记录平均关节加速度毫米/帧²和速度
2.1 与特定场景的机器人策略专家的比较
// 待更