WBC(全身控制)
基于精确动力学模型和优化,把全身约束、接触力分配和任务优先级组织起来,输出实时控制力矩。
这是人形机器人里最容易产生路线之争的一对概念。但真正的问题不是“谁更好”,而是“在什么场景下该用谁”。
基于精确动力学模型和优化,把全身约束、接触力分配和任务优先级组织起来,输出实时控制力矩。
不要求精确建模,通过与环境交互最大化累积奖励,学出能泛化的控制策略。
WBC 必须有足够精确的动力学模型;RL 可以 model-free,也可以学一个近似模型。
WBC 一次优化即可;RL 通常需要大量交互样本。
WBC 严格依赖模型精度;RL 通过随机化和探索可以泛化到更多场景。
QP / NMPC 可以实时求解;RL 推理通常很快,但训练需要大量算力。
WBC 需要精心设计接触切换逻辑;RL 自然地从交互中学会接触行为。
WBC 有稳定性、收敛性保证;RL 在理论上弱很多,尤其在真实机器人上。
有精确模型的工业场景、需要硬约束安全边界、算力受限的嵌入式部署、精确轨迹跟踪任务。
模型难以精确获取、任务难以手工设计控制器、高维复杂接触、具备足够仿真资源的场景。
人形系统精确建模极难,高自由度、多接触、浮动基让纯 WBC 很难覆盖所有场景,RL 的价值因此特别突出。
两者在真实系统上都会遇到模型误差、执行器延迟、传感器噪声等问题,需要系统性工程支撑。
“WBC 派”和“RL 派”的对立其实越来越没有意义,最强的人形系统往往两者都用。
RL 输出高层任务指令,WBC 负责全身力矩分配和约束满足。比如 RL 给出步态参数,WBC 负责实时跟踪。
典型 LLC + HLC 架构。RL 负责快速响应层,WBC 负责全局任务协调。
训练时用 WBC 计算的接触力、质心动力学量作为额外观测,推理时去掉这些量,让策略学会处理缺失信息。
用 RL 学一个残差补偿,加在已有的 WBC 控制输出上,让系统同时具备模型精度和学习适应性。
先把 WBC 核心概念弄清楚:QP、任务优先级、接触建模、质心动力学。不要跳过这个,否则理解 RL 在机器人里的定位会非常虚。
重点不是背 PPO / SAC 的参数,而是理解 MDP 建模、reward 设计、训练系统和 sim2real 这些真正决定成败的环节。
找 2 到 3 篇把 WBC 和 RL 结合的真实人形机器人论文,看清楚他们是怎么在系统层面组织这两个组件的。
先读 运动控制总览,再补 Optimal Control,别一上来就把 WBC 和 RL 当成路线之争。
接着看 人形机器人运动控制 Know-How,理解真系统里为什么融合方案更常见。
再跳到 Sim2Real Pipeline 和 机器人强化学习总览,把策略训练、控制约束和真机部署串成一条线。
WBC 和 RL 不是对手关系,而是互补关系。理解它们各自的能力边界,并在系统层面组合使用,才是人形机器人运动控制的真实方向。
WBC 是运动控制模块的核心方法之一。
RL 是人形机器人运动控制的另一条主线。
RL 在人形机器人上能否部署,sim2real 是关键环节。
如果你想从控制和优化视角理解 WBC 这类方法,这门课是比直接跳论文更稳的入口。
从建模求解到 Sim2Real,从传统控制到深度强化学习,整理了人形机器人运动控制的核心解决思路。