机器人强化学习与运动控制技术栈地图

面向机器人学习与工程实践的技术栈导航

围绕 运动控制、强化学习、模仿学习、人形机器人 等核心主题,整理知识结构、学习路径与论文入口。

这个项目是做什么的?

不是资源堆砌,也不是单纯的思维导图展示,而是一个面向长期成长的技术导航系统。

看清模块

帮助你看清机器人领域的核心模块,不再在零散名词和碎片链接里打转。

理解依赖

把数学、机器人学、控制、学习算法、系统工程之间的依赖关系讲清楚。

形成路径

告诉你当前该学什么、下一步该补什么,而不是只给一堆“看起来很全”的目录。

连接行动

把知识页、路线图、论文导航、开源生态串起来,最终服务研究与工程落地。

两条成长路线

先建立清晰主线,再沿着控制、学习与机器人系统逐层扩展。

路线 A:控制与学习主线

从数学基础、刚体运动、运动学、动力学出发,进入控制、优化、人形 locomotion,再扩展到强化学习与模仿学习。

路线 B:系统能力扩展主线

在控制与学习的基础上,继续补齐感知、规划、ROS2 / 中间件、部署调试、硬件认知与系统集成能力。

当前技术栈主干

先把关键主干打清楚,再逐步补齐周边模块。

运动控制

刚体运动 · 运动学 · 动力学 · 状态估计 · MPC · WBC

这是理解 humanoid locomotion、sim2real 和真实部署问题的核心骨架之一。

强化学习

PPO · SAC · Reward Design · Domain Randomization · Sim2Real

重点不是泛泛谈算法,而是围绕机器人运动控制的实际问题去组织 RL 知识。

模仿学习

Behavior Cloning · DAgger · Motion Retarget · Diffusion Policy

连接人类动作数据、技能迁移与人形机器人行为学习,是后续高价值方向。

全栈扩展

Perception · Planning · ROS2 · Deployment · Integration

先把主要结构整理清楚,后续再逐步扩展到感知、规划、部署与系统集成。

关系页

模块之间的关系,比模块本身更重要。

WBC vs RL

传统控制 vs 强化学习

理解两者各自的能力边界,以及为什么融合才是人形机器人的真实方向。

RL vs IL

强化学习 vs 模仿学习

理解两者为什么是互补关系,以及最强人形系统如何组合使用两者。

Sim2Real Pipeline

仿真到真机的完整路径

这是人形机器人 RL 能否落地的核心 pipeline,每个环节都可能让你在真机上付出惨重代价。

Motion Retargeting Pipeline

动作迁移的完整路径

把人类动作迁移到机器人最难的部分,往往不是策略训练,而是 retargeting 这条 pipeline。

论文导航与开源生态

把论文、代码、benchmark 和知识模块挂钩,避免“读完就散”。

论文导航

按 locomotion RL、模仿学习、WBC、sim2real、人形硬件和综述论文组织入口。

开源生态

按 simulation、RL frameworks、humanoid projects、retarget tools 和通用 utilities 分类整理。

Benchmark

逐步沉淀 locomotion benchmark、人形环境、训练场景与评测任务的结构化索引。

知识反哺

最终让论文和开源项目不是“收藏夹”,而是能回流到路线图和技术地图里的知识资产。