MoE不够看了,腾讯推出MoT:2B具身模型22项评测16项最佳

张开发
2026/4/21 18:14:11 15 分钟阅读

分享文章

MoE不够看了,腾讯推出MoT:2B具身模型22项评测16项最佳
腾讯混元团队 投稿量子位 | 公众号 QbitAI让大模型真正走进现实世界是当下最迫切的需求之一。但美好的愿景在真实的物理环境面前却屡屡碰壁。那些在文本世界里对答如流的通用视觉语言模型VLM一旦装进机器人脑子里常常显得笨手笨脚。原因很简单——物理世界容不得半点含糊。通用模型平时看图“大差不差”就行但具身智能需要的是极度精细的三维空间感知以及涉及到真实物理交互的预测和规划。拿着“做题家”的脑子去干真实的体力活自然水土不服。面对这个行业痛点腾讯混元团队联合腾讯Robotics X实验室开发的HY-Embodied-0.5系列基础模型交出了一份相当硬核的答卷。这并非是一次在通用大模型上的简单“微调”而是一场从底层架构到训练范式完全为“具身智能”量身定制的重构。这一次HY-Embodied团队推出了两款主力模型MoT-2B总参数4B仅激活2B采用创新的混合TransformerMoT架构主打端侧部署和实时响应。MoE-32B总参数407B激活32B追求复杂推理与极致性能。为了让AI真正“看懂”物理空间并做出准确反应团队在架构、数据组织和训练流程上做出了大量创新。他们不仅采用了原生分辨率的视觉编码器还针对性地采用了Mixture-of-TransformersMoT架构并引入视觉潜在Token机制进一步强化了视觉与语言空间的对齐。在训练端模型先由超过100M的高质量具身专属数据打底并引入迭代式后训练范式应用了拒绝采样微调、强化学习、在线蒸馏等方案驱动模型思维链自主进化并将大模型的能力高保真地“压缩”传授给仅有2B激活参数的轻量级变体。HY-Embodied系列模型不仅在开源Benchmark上达成了断层式的领先更在物理实操中证明了自己绝非纸上谈兵通过将VLM底座应用在VLA视觉-语言-动作模型直接让其接管现实世界中的机器人控制。在涵盖感知、推理、规划的22项权威评测榜单中HY-Embodied-0.5展现了极其恐怖的战斗力。小身板的MoT-2B模型共取得16项最佳超越参数更大的通用底座Qwen3-VL-4B和具身专属模型RoboBrain2.5、MiMo-Embodied等。△HY-Embodied-0.5 2B参数量评测结果而完全体的MoE-A32B在具身测评标准下的综合成绩与目前的行业标杆Gemini 3.0 Pro等抗衡。△HY-Embodied-0.5旗舰模型评测结果除了领先的评测性能2B小模型也有不错的使用体验。在视觉感知和具身任务上不仅有准确的结果还有清晰合理的推理过程。将更强的VLM基座应用到机器人实机任务上也能取得更好的效果。预训练的HY-Embodied-0.5基座右图相比基线模型左图。使用相同动作训练数据在打包、堆叠、悬挂三个实机任务上HY-Embodied基座相比于pi0和pi0.5初始化的模型能取得更好的效果。

更多文章