Hy-Embodied-0.5-X

GitHub

Hugging Face

从“看懂”到“干活”，围绕具身落地中的关键问题，引入自采机器人第一视角操作数据及机械臂操作数据，针对精细操作理解、空间推理、动作预测、风险判断、多模态指代理解，长程规划等核心任务进行了专项训练优化。

模型特性

更强的空间理解能力

更准确理解物体位置、场景布局、相对空间关系和操作状态，为后续动作决策提供更可靠的依据。

更强的长程规划能力

能够处理多步骤、强依赖的复杂任务，在连续交互中完成更稳定的动作规划与执行决策。

更强的具身交互能力

不仅能完成对话及视觉理解，还可以进行任务解析和指代消解，围绕真实任务进行动作决策、风险判断和失败反思，更贴近真实机器人交互闭环。

Benchmark指标评测

在开源 benchmark 评测中，Hy-Embodied-0.5-X 相比同尺寸开源模型也展现出较强竞争力。在覆盖规划、空间推理、具身问答、视觉指代与轨迹理解等方向的 10 个 benchmark 上，模型取得了 6 项第一、3 项第二，并在 CV-Bench 等通用视觉空间任务上保持第一梯队表现，体现出在规划、空间理解和具身交互等核心能力上的均衡优势。

此外，Hy-Embodied-0.5-X 在自建的基于 AI2Thor 仿真环境的具身规划基准测试中展现出较强的多步骤任务规划与连续交互能力。该基准共包含 1011 道任务，覆盖厨房、卧室、客厅、浴室四大家居场景，考察模型在导航、抓取、放置、开关电器、切割食材等操作中的规划与执行表现。结果显示，Hy-Embodied-0.5-X 在长程操作、自认知、空间理解等关键维度上取得了明显提升。