去掉像素中介!上海交大让AI边看边想边画,用同一个“大脑”跨模态推理

张开发
2026/4/14 15:58:43 15 分钟阅读

分享文章

去掉像素中介!上海交大让AI边看边想边画,用同一个“大脑”跨模态推理
让AI会看会画早已司空见惯。如果让它画完之后继续规划、继续推理就不得不把图片重新编码回语义特征重新喂给AI。工程师们正把目光投向更复杂的领域教AI边看边想边画把自己画好的视觉内容纳入推理闭环变成中间思维状态不需要像素的编码、解码直接进行进一步的推理、规划乃至世界建模。这样摒弃了传统的像素解码中介直接在共享的语义潜空间里进行跨模态思考打破了现有大模型的认知瓶颈。来自上海交通大学、清华大学和加州大学圣地亚哥分校的研究团队提出的LatentUM架构把文本和图像放入同一个语义潜空间完成复杂推理在视觉空间规划和物理世界模拟任务上取得了SOTA成绩。跨越像素中介人们期待统一模型UM能在文本、图像和视频之间自由切换像人类一样进行交叉推理。这类推理在现实中非常有价值比如解决需要密集视觉思考的规划问题或者根据动作指令模拟物理世界的动态变化。这些任务需要的是语义正确而不是精确到每一个像素点的完美还原。现有统一模型生成一段视觉信息并想要对其进行后续推理时必须先要把特征解码成一张张真实的像素图片然后再把图片重新编码回语义特征。这种像素空间的中介转换带来了不必要的编解码偏差还拉大了不同模态之间的鸿沟。LatentUM则直接在同一个语义潜空间里嵌入不同的模态。研究团队认为既然语义正确比像素逼真更重要就应该把视觉信息转化成和语言一样的语义词元。他们利用模型行为对齐量化MBAQ技术把原本连续的视觉特征转化为离散的视觉语义词元。这种量化方式不关注像素细节的重建只关心一件事量化后的特征必须保留原有的视觉理解能力。他们引入一个视觉语言模型VLM让它分别观察原始的连续特征和量化后的离散特征。通过计算两种观察结果输出分布之间的差异不断调整量化器。这样一来LatentUM自己生成的视觉内容不需要变成图片也能被自己直接理解。架构各司其职有了统一的离散词元接下来需要一个自回归模型把各模态的依赖关系串联起来。把语言和视觉的生成任务生硬地塞进同一个Transformer骨干网络里会产生互相冲突的优化信号拖累整体性能。研究团队巧妙设计了多模态专家混合MoME架构。在每一个处理层里模型同时维护两条平行的分支理解分支负责处理交织的文本和视觉特征生成分支专门用来吐出离散的视觉词元。这两条分支各自保留独立的网络和投影矩阵但在自注意力机制上握手共享。这种共享让生成分支在创作时能充分参考上下文的理解信息。在推理阶段只需要一个特殊的标记模型就能顺畅地在理解和生成模式之间切换。为了让我们人类能看到模型的思考过程LatentUM外挂了一个解耦的像素解码器。这是一个单独训练的扩散模型负责把量化后的视觉语义特征渲染成真实的图片。主干模型从头到尾都不会去追求像素还原度彻底保持了潜空间对语义的专注。在标准的多模态理解基准测试中LatentUM表现出色。当使用量化后的视觉特征处理图像时它的性能下降非常微小在部分指标上甚至超越了使用连续特征的对比模型。这证明了量化技术确实保留了足够丰富的语义信息。边生成边反思除了基本的文本生成图像。把视觉和语言放在同一个空间里最大的好处是模型可以审视自己生成的作品。利用组相对策略优化GRPOLatentUM在生成视觉内容后会立刻提出包含物体数量、颜色、空间关系等细节的选择题来考校自己。它利用自身的理解能力打分把这个分数作为奖励信号不断提升视觉生成的质量。在GenEval测试集上经历了“自我反思”的LatentUM拿下了0.92的高分超过了市面上所有的统一模型。这种完全依赖自身理解能力驱动质量飞跃的自我进化展示了统一语义空间的巨大潜力。走迷宫是检验空间推理能力的绝佳舞台。视觉空间规划VSP基准测试要求模型在迷宫环境中找到出路。LatentUM展示了两种递进的推理方式。在粗粒度规划里它先用文字分析迷宫结构在脑海里画出完整的视觉路线图最后给出文字解答。在更精细的分布规划里它做到了步步为营每给出一条例如向上走的文字指令就会在潜空间里更新一次当前状态的视觉表示把新状态当成下一步动作的参考背景。这种把大问题拆解成细小图文步骤的做法效果惊人。细粒度规划下的LatentUM几乎达到了满分远超那些依赖像素空间做多模态转换的传统模型。统一的语义空间确实让机器具备了更深刻、更复杂的思考能力。预测世界演变能在静态图像里做推理只是开始真实世界是随着动作不断演变的。在机器人视觉导航的场景中LatentUM承担起了物理世界模拟器的角色。研究人员用第一人称视角的导航数据集对模型进行了训练。只要给它4帧过去的画面背景和一段文字描述的动作指令模型就能在语义潜空间里预测出下一个画面的样貌。只有当最后需要评估效果时那套解耦的扩散解码器才会出马把预测出的语义词元渲染成肉眼可见的像素图片。不仅在既定轨迹下能保持画面的时间连贯性和空间布局LatentUM甚至展现出了零样本的模拟能力。哪怕面对靠近左边房子这种自由发挥的语言指令它依然能精准预测出对应的视觉状态在导航世界模型测试中取得了亮眼的成绩。LatentUM用一个简洁的潜空间方案把多模态模型从繁杂的像素描绘中解救出来让其真正专注于深度的交叉逻辑与时间推理为未来复杂的端到端决策系统打下了一个极具潜力的底座。参考资料https://arxiv.org/pdf/2604.02097https://github.com/SJTU-DENG-Lab/LatentUMhttps://huggingface.co/collections/SJTU-DENG-Lab/latentum

更多文章