RL(强化学习)
通过与环境交互最大化累积奖励,让机器人自己探索出好策略。核心是“试”。
这两个概念在机器人领域经常被对立起来讨论,但最实用的人形机器人系统往往同时用两者。理解它们的真实关系,比站队更重要。
通过与环境交互最大化累积奖励,让机器人自己探索出好策略。核心是“试”。
通过专家演示数据,让机器人直接模仿映射关系。核心是“抄”。
RL 需要大量真实或仿真交互;IL 依赖专家演示、遥操作或动捕数据。
IL 样本效率高,有演示就能训;RL 样本效率通常较低,需要大量探索。
RL 理论上可以超越专家数据的上限;IL 通常不会超出演示数据范围。
RL 必须设计奖励函数,往往非常复杂;IL 不需要显式奖励。
IL 面临经典的 distribution shift 问题;RL 如果 exploration 充分,则不存在这个问题。
RL 在真实机器人上探索代价高;IL 通常更安全,因为它只复现已知安全行为。
能探索出超越人类演示的策略、处理长时序信用分配问题、在仿真环境里可以承受大量失败、适合 reward 设计相对清晰但动作设计困难的任务。
样本效率高、适合难以定义 reward 的复杂技能、能利用已有的高质量专家数据、对安全性要求高的真实机器人更友好。
在人形机器人里,最实用的路线往往不是二选一,而是先 IL 后 RL,或者 IL + RL 混合。
先用 BC 或 DAgger 训一个能基本运作的策略,大幅降低 RL 的探索难度和训练时间。
通过 reference motion、motion prior 或 latent skill 把人类动作结构注入训练过程,让 RL 不从零开始。
让 RL 在 imitation prior 的基础上继续探索,优化鲁棒性、抗扰性、任务完成度和能效。
在 RL 训练过程中引入在线专家反馈(DAgger 类方法),持续纠正分布偏移。
先用行为克隆训出基础动作,再用 RL 在仿真里强化鲁棒性。这是 DeepMimic 类工作的典型路线。
用参考动作构建 reward 信号,让策略既学会基本动作模式,又有 RL 的探索和泛化能力。
用 adversarial motion prior 替代手工 reward,RL 在这个先验约束下探索更自然的动作。
先用 IL 学出 latent skill embedding,再用 RL 在技能空间里探索更高层的任务策略。
这是理解 imitation learning 核心矛盾的最好入口,也是大多数实用系统的起点。
知道 reward 设计为什么难,以及 imitation reward / reference tracking reward 如何帮助缓解这个问题。
重点看他们怎么设计 demonstration、reward 和 training pipeline,不要只看结论。
先读 MimicKit.md,知道 DeepMimic、AMP、ASE、ADD 这条线是怎么演化的。
接着读 Actor-Critic-Disc 网络详解 和 DeepMimic 公式详解,把“先模仿、再强化”的机制真正吃透。
再看 Retargeting Pipeline 和 Sim2Real Pipeline,理解为什么 demonstration 质量和部署系统会一起决定上限。
RL 和 IL 不是竞争关系,而是互补关系。IL 提供行为先验和数据效率,RL 提供泛化能力和超越演示的可能性。最强的人形系统,往往是把两者按层次组合起来。
RL 是技能学习的探索主线。
IL 是技能学习的模仿主线。
详细拆解 MimicKit 中 PPOModel、AMPModel、ASEModel 的继承关系和网络结构,是理解 IL + RL 融合的代码级入口。
把 DeepMimic 里的 RL 数学框架讲清楚,是理解“先模仿、再强化”路线的关键材料。
从 DeepMimic、AMP、ASE 到 ADD 的演化脉络,帮助理解为什么真实系统会同时用到 IL 和 RL。
如果你想理解 IL + RL 混合系统怎么真正跑起来,这篇能把采样、测试、日志和 checkpoint 串到一起。
人形机器人 IL 里,数据从哪来、怎么处理,是关键的 pipeline 问题。