RL vs IL | Robotics Notebooks

1. 一句话定义

RL（强化学习）

通过与环境交互最大化累积奖励，让机器人自己探索出好策略。核心是“试”。

IL（模仿学习）

通过专家演示数据，让机器人直接模仿映射关系。核心是“抄”。

2. 核心差异

数据来源

RL 需要大量真实或仿真交互；IL 依赖专家演示、遥操作或动捕数据。

样本效率

IL 样本效率高，有演示就能训；RL 样本效率通常较低，需要大量探索。

可超越专家

RL 理论上可以超越专家数据的上限；IL 通常不会超出演示数据范围。

奖励设计

RL 必须设计奖励函数，往往非常复杂；IL 不需要显式奖励。

分布偏移风险

IL 面临经典的 distribution shift 问题；RL 如果 exploration 充分，则不存在这个问题。

安全性

RL 在真实机器人上探索代价高；IL 通常更安全，因为它只复现已知安全行为。

3. 它们各自的强项

RL 的强项

能探索出超越人类演示的策略、处理长时序信用分配问题、在仿真环境里可以承受大量失败、适合 reward 设计相对清晰但动作设计困难的任务。

IL 的强项

样本效率高、适合难以定义 reward 的复杂技能、能利用已有的高质量专家数据、对安全性要求高的真实机器人更友好。

4. 为什么最强系统两者都用

在人形机器人里，最实用的路线往往不是二选一，而是先 IL 后 RL，或者 IL + RL 混合。

IL 提供初始策略

先用 BC 或 DAgger 训一个能基本运作的策略，大幅降低 RL 的探索难度和训练时间。

IL 提供行为先验

通过 reference motion、motion prior 或 latent skill 把人类动作结构注入训练过程，让 RL 不从零开始。

RL 在 IL 基础上优化

让 RL 在 imitation prior 的基础上继续探索，优化鲁棒性、抗扰性、任务完成度和能效。

IL 做在线校正

在 RL 训练过程中引入在线专家反馈（DAgger 类方法），持续纠正分布偏移。

5. 人形机器人里的典型组合模式

BC + RL Fine-tune

先用行为克隆训出基础动作，再用 RL 在仿真里强化鲁棒性。这是 DeepMimic 类工作的典型路线。

Reference Tracking Reward + RL

用参考动作构建 reward 信号，让策略既学会基本动作模式，又有 RL 的探索和泛化能力。

AMP / Motion Prior + RL

用 adversarial motion prior 替代手工 reward，RL 在这个先验约束下探索更自然的动作。

Latent Skill + RL

先用 IL 学出 latent skill embedding，再用 RL 在技能空间里探索更高层的任务策略。

6. 学习路径建议

第一步：把 BC 和 DAgger 弄清楚

这是理解 imitation learning 核心矛盾的最好入口，也是大多数实用系统的起点。

第二步：理解 RL 里的 reward shaping 问题

知道 reward 设计为什么难，以及 imitation reward / reference tracking reward 如何帮助缓解这个问题。

第三步：找几篇 IL + RL 组合的人形机器人论文

重点看他们怎么设计 demonstration、reward 和 training pipeline，不要只看结论。

7. 建议下一步阅读顺序

先理解项目脉络

先读 MimicKit.md，知道 DeepMimic、AMP、ASE、ADD 这条线是怎么演化的。

再看核心机制

接着读 Actor-Critic-Disc 网络详解和 DeepMimic 公式详解，把“先模仿、再强化”的机制真正吃透。

最后接到数据与系统

再看 Retargeting Pipeline 和 Sim2Real Pipeline，理解为什么 demonstration 质量和部署系统会一起决定上限。

8. 一句话总结

RL 和 IL 不是竞争关系，而是互补关系。IL 提供行为先验和数据效率，RL 提供泛化能力和超越演示的可能性。最强的人形系统，往往是把两者按层次组合起来。

关联入口

机器人强化学习总览

RL 是技能学习的探索主线。

机器人模仿学习总览

IL 是技能学习的模仿主线。

Actor-Critic-Disc 网络详解

详细拆解 MimicKit 中 PPOModel、AMPModel、ASEModel 的继承关系和网络结构，是理解 IL + RL 融合的代码级入口。

MimicKIt 04 Actor_Critic_Disc 网络结构详解

DeepMimic 公式详解

把 DeepMimic 里的 RL 数学框架讲清楚，是理解“先模仿、再强化”路线的关键材料。

MimicKit 05 DeepMimic

MimicKit 总览

从 DeepMimic、AMP、ASE 到 ADD 的演化脉络，帮助理解为什么真实系统会同时用到 IL 和 RL。

MimicKit.md

训练循环解析

如果你想理解 IL + RL 混合系统怎么真正跑起来，这篇能把采样、测试、日志和 checkpoint 串到一起。

MimicKit 06 def train_model(...)

Motion Retargeting Pipeline

人形机器人 IL 里，数据从哪来、怎么处理，是关键的 pipeline 问题。

🧪 RL vs IL：强化学习与模仿学习的关系