Benchmark指标评测
在开源 benchmark 评测中,Hy-Embodied-0.5-X 相比同尺寸开源模型也展现出较强竞争力。在覆盖规划、空间推理、具身问答、视觉指代与轨迹理解等方向的 10 个 benchmark 上,模型取得了 6 项第一、3 项第二,并在 CV-Bench 等通用视觉空间任务上保持第一梯队表现,体现出在规划、空间理解和具身交互等核心能力上的均衡优势。
此外,Hy-Embodied-0.5-X 在自建的基于 AI2Thor 仿真环境的具身规划基准测试中展现出较强的多步骤任务规划与连续交互能力。该基准共包含 1011 道任务,覆盖厨房、卧室、客厅、浴室四大家居场景,考察模型在导航、抓取、放置、开关电器、切割食材等操作中的规划与执行表现。结果显示,Hy-Embodied-0.5-X 在长程操作、自认知、空间理解等关键维度上取得了明显提升。