⚖️ WBC vs RL:传统控制与强化学习的关系

这是人形机器人里最容易产生路线之争的一对概念。但真正的问题不是“谁更好”,而是“在什么场景下该用谁”。

1. 一句话定义

WBC(全身控制)

基于精确动力学模型和优化,把全身约束、接触力分配和任务优先级组织起来,输出实时控制力矩。

RL(强化学习)

不要求精确建模,通过与环境交互最大化累积奖励,学出能泛化的控制策略。

2. 核心差异

依赖模型

WBC 必须有足够精确的动力学模型;RL 可以 model-free,也可以学一个近似模型。

样本效率

WBC 一次优化即可;RL 通常需要大量交互样本。

泛化能力

WBC 严格依赖模型精度;RL 通过随机化和探索可以泛化到更多场景。

实时性

QP / NMPC 可以实时求解;RL 推理通常很快,但训练需要大量算力。

接触处理

WBC 需要精心设计接触切换逻辑;RL 自然地从交互中学会接触行为。

理论保证

WBC 有稳定性、收敛性保证;RL 在理论上弱很多,尤其在真实机器人上。

3. 各自适合的场景

WBC 更适合

有精确模型的工业场景、需要硬约束安全边界、算力受限的嵌入式部署、精确轨迹跟踪任务。

RL 更适合

模型难以精确获取、任务难以手工设计控制器、高维复杂接触、具备足够仿真资源的场景。

人形机器人的特殊性

人形系统精确建模极难,高自由度、多接触、浮动基让纯 WBC 很难覆盖所有场景,RL 的价值因此特别突出。

共同难点

两者在真实系统上都会遇到模型误差、执行器延迟、传感器噪声等问题,需要系统性工程支撑。

4. 融合是真实方向

“WBC 派”和“RL 派”的对立其实越来越没有意义,最强的人形系统往往两者都用。

RL 训练策略,WBC 做底层执行

RL 输出高层任务指令,WBC 负责全身力矩分配和约束满足。比如 RL 给出步态参数,WBC 负责实时跟踪。

RL 训练 low-level policy,WBC 做 high-level

典型 LLC + HLC 架构。RL 负责快速响应层,WBC 负责全局任务协调。

WBC 提供 privileged information 给 RL

训练时用 WBC 计算的接触力、质心动力学量作为额外观测,推理时去掉这些量,让策略学会处理缺失信息。

Residual RL

用 RL 学一个残差补偿,加在已有的 WBC 控制输出上,让系统同时具备模型精度和学习适应性。

5. 学习路径建议

第一步:打控制骨架

先把 WBC 核心概念弄清楚:QP、任务优先级、接触建模、质心动力学。不要跳过这个,否则理解 RL 在机器人里的定位会非常虚。

第二步:理解 RL 的本质

重点不是背 PPO / SAC 的参数,而是理解 MDP 建模、reward 设计、训练系统和 sim2real 这些真正决定成败的环节。

第三步:看融合工作

找 2 到 3 篇把 WBC 和 RL 结合的真实人形机器人论文,看清楚他们是怎么在系统层面组织这两个组件的。

6. 建议下一步阅读顺序

7. 一句话总结

WBC 和 RL 不是对手关系,而是互补关系。理解它们各自的能力边界,并在系统层面组合使用,才是人形机器人运动控制的真实方向。

关联入口

Optimal Control 课程笔记

如果你想从控制和优化视角理解 WBC 这类方法,这门课是比直接跳论文更稳的入口。

00 - Optimal Control

人形机器人运动控制 Know-How

从建模求解到 Sim2Real,从传统控制到深度强化学习,整理了人形机器人运动控制的核心解决思路。

人形机器人运动控制Know-How