Hy-Embodied-0.5-VLA

Code

Model

Data

Report

一个端到端的具身智能全栈系统。该系统完整构建了自研采集硬件、大规模人类示教数据集、基于 UMI 数据预训练、面向目标本体的有监督微调、偏好驱动的离线强化学习以及真机部署的全链路流水线。

工作贡献

更大规模的高精泛化数据

自采超 10,000 小时第一视角亚毫米级高精 UMI 数据。采用高精动捕替代传统 SLAM，指端形态完美保留原生触觉与全局语义，数据用于后训练后可直接跨本体部署。

更强时空理解的模型架构

基于 Hy-Embodied-0.5 主干升级原生流匹配动作专家。引入视频编码器捕捉紧凑的历史时空上下文，结合 rel-EE 动作表征，从特定本体运动学中解耦，大幅收敛模型优化空间。

更高效的真机强化策略

创新提出 FlowPRO 真机强化学习策略，构建“干预-回滚”数据流水线。利用 RPRO 偏好损失实现reward-free的离线 RL，兼顾“错误中学习”的同时，确保模型基础通用能力不退化。

更丝滑低延的真机部署

首创高频异步推理机制，使前向推理与动作执行高效交叠并行。引入贝塞尔曲线平滑算法打通动作块间的拼接，真正实现真机闭环的高频、丝滑、一键跨本体部署。

评测结果

RoboTwin 2.0

Track-A Intra-Embodiment

Track-B Cross-Embodiment

FlowPRO

落地场景.创元化妆品产线

RoboTwin 2.0 总体成功率超越 π0.5，LingBot-VLA，Motus 在内的多家主流 VLA 模型，达到业界第一梯队水平。

RoboTwin 2.0 — 按颜色排序积木

RoboTwin 2.0 — 按尺寸排序积木

RoboTwin 2.0 — 双鞋摆放

RoboTwin 2.0 — 物体放入柜子

RoboTwin 2.0 — 打开微波炉

RoboTwin 2.0 — 挂马克杯

RoboTwin 2.0 在 Clean 与 Randomized 两种设置下的成功率（%），所有数值均按每任务 100 次 rollout 取均值、再在 50 个任务上取均值的方式得到。