具身开源模型
具身模型服务
平台工具
开发者文档
合作案例
Hy-Embodied-0.5-VLA
Code
Model
Data
Report
一个端到端的具身智能全栈系统。该系统完整构建了自研采集硬件、大规模人类示教数据集、基于 UMI 数据预训练、面向目标本体的有监督微调、偏好驱动的离线强化学习以及真机部署的全链路流水线。
工作贡献
更大规模的高精泛化数据
自采超 10,000 小时第一视角亚毫米级高精 UMI 数据。采用高精动捕替代传统 SLAM,指端形态完美保留原生触觉与全局语义,数据用于后训练后可直接跨本体部署。
更强时空理解的模型架构
基于 Hy-Embodied-0.5 主干升级原生流匹配动作专家。引入视频编码器捕捉紧凑的历史时空上下文,结合 rel-EE 动作表征,从特定本体运动学中解耦,大幅收敛模型优化空间。
更高效的真机强化策略
创新提出 FlowPRO 真机强化学习策略,构建“干预-回滚”数据流水线。利用 RPRO 偏好损失实现reward-free的离线 RL,兼顾“错误中学习”的同时,确保模型基础通用能力不退化。
更丝滑低延的真机部署
首创高频异步推理机制,使前向推理与动作执行高效交叠并行。引入贝塞尔曲线平滑算法打通动作块间的拼接,真正实现真机闭环的高频、丝滑、一键跨本体部署。
评测结果
RoboTwin 2.0
Track-A Intra-Embodiment
Track-B Cross-Embodiment
FlowPRO
落地场景.创元化妆品产线
RoboTwin 2.0 总体成功率超越 π0.5,LingBot-VLA,Motus 在内的多家主流 VLA 模型,达到业界第一梯队水平。
RoboTwin 2.0 — 按颜色排序积木
RoboTwin 2.0 — 按尺寸排序积木
RoboTwin 2.0 — 双鞋摆放
RoboTwin 2.0 — 物体放入柜子
RoboTwin 2.0 — 打开微波炉
RoboTwin 2.0 — 挂马克杯
RoboTwin 2.0 在 Clean 与 Randomized 两种设置下的成功率(%),所有数值均按每任务 100 次 rollout 取均值、再在 50 个任务上取均值的方式得到。