去掉像素中介！上海交大让AI边看边想边画，用同一个“大脑”跨模态推理

张开发

• 2026/4/14 15:58:43 • 15 分钟阅读

分享文章

让AI会看会画早已司空见惯。如果让它画完之后继续规划、继续推理就不得不把图片重新编码回语义特征重新喂给AI。工程师们正把目光投向更复杂的领域教AI边看边想边画把自己画好的视觉内容纳入推理闭环变成中间思维状态不需要像素的编码、解码直接进行进一步的推理、规划乃至世界建模。这样摒弃了传统的像素解码中介直接在共享的语义潜空间里进行跨模态思考打破了现有大模型的认知瓶颈。来自上海交通大学、清华大学和加州大学圣地亚哥分校的研究团队提出的LatentUM架构把文本和图像放入同一个语义潜空间完成复杂推理在视觉空间规划和物理世界模拟任务上取得了SOTA成绩。跨越像素中介人们期待统一模型UM能在文本、图像和视频之间自由切换像人类一样进行交叉推理。这类推理在现实中非常有价值比如解决需要密集视觉思考的规划问题或者根据动作指令模拟物理世界的动态变化。这些任务需要的是语义正确而不是精确到每一个像素点的完美还原。现有统一模型生成一段视觉信息并想要对其进行后续推理时必须先要把特征解码成一张张真实的像素图片然后再把图片重新编码回语义特征。这种像素空间的中介转换带来了不必要的编解码偏差还拉大了不同模态之间的鸿沟。LatentUM则直接在同一个语义潜空间里嵌入不同的模态。研究团队认为既然语义正确比像素逼真更重要就应该把视觉信息转化成和语言一样的语义词元。他们利用模型行为对齐量化MBAQ技术把原本连续的视觉特征转化为离散的视觉语义词元。这种量化方式不关注像素细节的重建只关心一件事量化后的特征必须保留原有的视觉理解能力。他们引入一个视觉语言模型VLM让它分别观察原始的连续特征和量化后的离散特征。通过计算两种观察结果输出分布之间的差异不断调整量化器。这样一来LatentUM自己生成的视觉内容不需要变成图片也能被自己直接理解。架构各司其职有了统一的离散词元接下来需要一个自回归模型把各模态的依赖关系串联起来。把语言和视觉的生成任务生硬地塞进同一个Transformer骨干网络里会产生互相冲突的优化信号拖累整体性能。研究团队巧妙设计了多模态专家混合MoME架构。在每一个处理层里模型同时维护两条平行的分支理解分支负责处理交织的文本和视觉特征生成分支专门用来吐出离散的视觉词元。这两条分支各自保留独立的网络和投影矩阵但在自注意力机制上握手共享。这种共享让生成分支在创作时能充分参考上下文的理解信息。在推理阶段只需要一个特殊的标记模型就能顺畅地在理解和生成模式之间切换。为了让我们人类能看到模型的思考过程LatentUM外挂了一个解耦的像素解码器。这是一个单独训练的扩散模型负责把量化后的视觉语义特征渲染成真实的图片。主干模型从头到尾都不会去追求像素还原度彻底保持了潜空间对语义的专注。在标准的多模态理解基准测试中LatentUM表现出色。当使用量化后的视觉特征处理图像时它的性能下降非常微小在部分指标上甚至超越了使用连续特征的对比模型。这证明了量化技术确实保留了足够丰富的语义信息。边生成边反思除了基本的文本生成图像。把视觉和语言放在同一个空间里最大的好处是模型可以审视自己生成的作品。利用组相对策略优化GRPOLatentUM在生成视觉内容后会立刻提出包含物体数量、颜色、空间关系等细节的选择题来考校自己。它利用自身的理解能力打分把这个分数作为奖励信号不断提升视觉生成的质量。在GenEval测试集上经历了“自我反思”的LatentUM拿下了0.92的高分超过了市面上所有的统一模型。这种完全依赖自身理解能力驱动质量飞跃的自我进化展示了统一语义空间的巨大潜力。走迷宫是检验空间推理能力的绝佳舞台。视觉空间规划VSP基准测试要求模型在迷宫环境中找到出路。LatentUM展示了两种递进的推理方式。在粗粒度规划里它先用文字分析迷宫结构在脑海里画出完整的视觉路线图最后给出文字解答。在更精细的分布规划里它做到了步步为营每给出一条例如向上走的文字指令就会在潜空间里更新一次当前状态的视觉表示把新状态当成下一步动作的参考背景。这种把大问题拆解成细小图文步骤的做法效果惊人。细粒度规划下的LatentUM几乎达到了满分远超那些依赖像素空间做多模态转换的传统模型。统一的语义空间确实让机器具备了更深刻、更复杂的思考能力。预测世界演变能在静态图像里做推理只是开始真实世界是随着动作不断演变的。在机器人视觉导航的场景中LatentUM承担起了物理世界模拟器的角色。研究人员用第一人称视角的导航数据集对模型进行了训练。只要给它4帧过去的画面背景和一段文字描述的动作指令模型就能在语义潜空间里预测出下一个画面的样貌。只有当最后需要评估效果时那套解耦的扩散解码器才会出马把预测出的语义词元渲染成肉眼可见的像素图片。不仅在既定轨迹下能保持画面的时间连贯性和空间布局LatentUM甚至展现出了零样本的模拟能力。哪怕面对靠近左边房子这种自由发挥的语言指令它依然能精准预测出对应的视觉状态在导航世界模型测试中取得了亮眼的成绩。LatentUM用一个简洁的潜空间方案把多模态模型从繁杂的像素描绘中解救出来让其真正专注于深度的交叉逻辑与时间推理为未来复杂的端到端决策系统打下了一个极具潜力的底座。参考资料https://arxiv.org/pdf/2604.02097https://github.com/SJTU-DENG-Lab/LatentUMhttps://huggingface.co/collections/SJTU-DENG-Lab/latentum

更多文章

前端开发 2026/4/14 15:56:36

新手必看：Anything V5模型快速入门，5分钟生成你的第一张动漫图

新手必看：Anything V5模型快速入门，5分钟生成你的第一张动漫图 1. 为什么选择Anything V5模型如果你对AI生成动漫图片感兴趣，Anything V5绝对是最适合新手的入门选择。这个模型在二次元图像生成领域有着极高的口碑，主要原因有三…

Tab-Resize分屏布局终极指南：5个技巧让你高效管理浏览器标签页【免费下载链接】tab-resize Split Screen made easy. Resize the CURRENT tab and tabs to the RIGHT into layouts on separate Windows. w/ Multi-monitor Support 项目地址: https://gitcode.com…

张开发

前端开发 2026/4/14 15:36:12

YOLOFuse应用解析：在工业检测中实现复杂环境下的目标识别

YOLOFuse应用解析：在工业检测中实现复杂环境下的目标识别 1. 多模态目标检测的技术背景在工业检测领域，传统基于可见光的目标检测系统面临着诸多挑战。光照不均、烟雾粉尘、设备反光等复杂环境因素常常导致检测精度大幅下降。以半导体晶圆检测为例&am…

张开发

去掉像素中介！上海交大让AI边看边想边画，用同一个“大脑”跨模态推理

最新文章

用Matlab给TA画个会跳动的3D爱心：从参数方程到粒子动画的完整实现

保姆级教程：ROS Melodic下用usb_cam驱动UVC摄像头，解决花屏和像素格式警告

Jenkins凭据管理实战：GitHub密钥配置与安全最佳实践

3分钟掌握缠论可视化：通达信智能分析插件终极指南

从LeetCode刷题看STL容器选择：什么时候该用vector而不是list？

【Unity光照实战指南】【一：从零到一，构建你的第一个动态光影场景】

推荐文章

龙虾白嫖指南，请查收~勘

AI Agent在金融科技领域的应用实践：风控、投顾与合规

Unity3D动画插件DoTween进阶应用与性能优化指南

超表面贝塞尔光束生成系统代码功能深度解析

【5G系列】深入解析NAS层UAC：Access Identity与Access Category的获取机制

Spring with AI (): 搜索扩展——向量数据库与RAG(下)肺

相关文章

别再死记硬背MIPI状态转换图了！用Python脚本模拟单向/双向Data Lane状态机

HuggingFace模型下载终极优化：Autodl服务器上的国内镜像与断点续传技巧

Python EXE逆向解密深度解析：从加密打包到源码还原的完整流程

基于 Python 与 PyQt5 构建的特斯拉行车记录仪视频播放器

别再搞混了！PyTorch里CrossEntropyLoss和NLLLoss到底该用哪个？（附代码对比）

别再为Linux打印机驱动烦恼：foo2zjs开源驱动彻底解决兼容性问题

分享文章

更多文章

新手必看：Anything V5模型快速入门，5分钟生成你的第一张动漫图

EldenRingSaveCopier：专业级艾尔登法环存档迁移与备份解决方案

别再被隔离环境坑了！用这招让GroundingDINO在Conda虚拟环境里一次装好

给取证新手的工具选择指南：抛开复杂参数，聊聊Passware和Elcomsoft到底该怎么选（附预算方案）

Visio流程图清晰度提升秘籍：用好‘显示跨线’功能，让交叉连接线一目了然

WaveTools终极指南：如何免费快速解锁《鸣潮》120帧，实现高效游戏性能优化

那个永远在道歉、永远在犯错的“同事“，你真的需要吗？

TranslucentTB：Windows任务栏透明美化终极指南，5分钟打造个性桌面

终极指南：如何免费使用applera1n工具绕过iOS 15-16.6激活锁

入侵检测系统（IDS）和入侵防御系统（IPS）有啥区别？从零基础到精通，收藏这篇就够了！

Tab-Resize分屏布局终极指南：5个技巧让你高效管理浏览器标签页

YOLOFuse应用解析：在工业检测中实现复杂环境下的目标识别