HumanoidBench: Simulated Humanoid Benchmark for Whole-Body Locomotion and Manipulation
HumanoidBench:全身运动与操作的人形机器人仿真基准
📅 阅读日期: 2026-04-21
🏷️ 板块: 10 Simulation Benchmark · 分类起步样例
🚧 本笔记已填充基本信息,深度技术细节待细化。
📋 基本信息
| 项目 | 链接 |
|---|---|
| arXiv | 2403.10506 (RSS 2024) |
| Download | |
| 作者 | Carlos Ferrazza 等 |
| 机构 | UCL / CMU / Oxford / Berkeley 等 |
| 发布时间 | 2024-03 |
| 项目主页 | humanoid-bench.github.io |
| 代码 | GitHub - carlosferrazza/humanoid-bench |
🎯 一句话总结
HumanoidBench 是一个基于 MuJoCo 的大规模人形机器人学习基准,包含 27 个涉及全身操作和运动的任务,旨在解决高维动作空间下的协调与长时序规划问题。
📌 英文缩写速查
| 缩写 | 全称 | 简单解释 |
|---|---|---|
| H1 | Unitree H1 | 本基准主要采用的国产全尺寸人形机器人模型 |
| Shadow Hand | Shadow Dexterous Hand | 一种高度仿人的灵巧手模型(24 自由度) |
| HRL | Hierarchical Reinforcement Learning | 分层强化学习,本基准证明其在复杂任务中的必要性 |
❓ 论文要解决什么问题?
- 缺乏统一基准:人形机器人领域缺乏一个涵盖面广、任务复杂度高且可重复的仿真测试集。
- 高维控制挑战:现代人形机器人(如 H1 + Shadow Hand)拥有超过 60 个执行器,传统的”扁平”强化学习算法难以在高维空间中有效协调全身。
- 操作与运动的结合:如何在一个基准中同时评估机器人的移动能力(Locomotion)和精细操作能力(Manipulation)?
🔧 方法详解
- 丰富的任务库 (Task Suite):
- 15 个全身操作任务:如货架整理、窗户擦拭、甚至篮球投篮。
- 12 个运动任务:如迷宫导航、障碍跳跃、上下楼梯。
- 硬件配置:
- 默认使用 Unitree H1 搭载两只 Shadow Hand(共 61 个执行器)。
- 同时也支持 Digit、G1 等其他主流机器人模型。
- 算法评测:
- 对比了 PPO、SAC、TD-MPC2、DreamerV3 等主流算法。
- 结果发现:纯端到端算法在长时序任务上表现极差。
- 分层强化学习优势:
- 论文提出了一种基于预训练技能(Pre-trained skills)的分层方案,证明了将复杂任务分解为”底层技能 + 高层调度”是解决高维人形控制的关键。
🚶 具体实例
- 包裹卸载任务:机器人需要走到货车旁,识别包裹,用灵巧手将其抓起并搬运到指定地点。这要求极其精准的全身协调(足部稳定 + 手臂伸展 + 灵巧手抓取)。
- 篮球投篮:展示了机器人在动态平衡中完成爆发性、精确动作的能力。
🤖 工程价值
- 研究加速器:为全球开发者提供了一个快速、安全且无需昂贵硬件即可进行人形算法迭代的平台。
- 技能库建设:开源了大量预训练的底层技能权重,方便后续研究直接进行高层算法开发。
- 算法分水岭:揭示了现有 RL 算法在处理 60+ 自由度机器人时的局限性,指明了分层学习的研究方向。
🎤 面试高频问题 & 参考回答
- HumanoidBench 与传统的 Gym 环境有什么区别?
- 任务维度更高(61 DOF vs 10-20 DOF),且包含长时序、跨类别的复合任务(运动 + 操作)。
- 为什么 hierarchical RL 在这里表现更好?
- 扁平 RL 在高维动作空间中探索效率极低;分层架构通过复用已经学会的稳定动作(如走路、抓取),极大地缩小了高层策略的搜索空间。