DeCo: Decoupling Token Compression from SemanticAbstraction in Multimodal Large Language Models

张开发
2026/4/14 4:26:03 15 分钟阅读

分享文章

DeCo: Decoupling Token Compression from SemanticAbstraction in Multimodal Large Language Models
摘要视觉投影器作为连接视觉与语言模态、推动跨模态对齐的关键部件是多模态大语言模型MLLM中的核心组件。然而针对投影器在视觉—语言对齐中效果的度量问题仍缺乏充分探索目前仅能通过多模态大语言模型在下游任务上的表现间接推断。受该问题启发本文通过解读多模态大语言模型内部的视觉—语言语义流对投影器模块展开研究。具体而言我们将语义关联流从生成的语言令牌回溯至原始视觉编码器的图像块以及投影器输出的中间特征。研究发现压缩式投影器如 QFormer会将视觉图像块抽象为数量有限的语义概念如目标或属性进而产生**“双重抽象”现象**。 在多模态大语言模型中该过程体现为首先由投影器借助预定义查询令牌完成第一轮视觉语义抽象视觉模态内再由大语言模型根据文本指令完成第二轮语义提取语言模态内。双重抽象会降低训练效率并导致视觉语义信息出现累积缺失。为缓解这一问题本文提出**“压缩与抽象解耦DeCo”**的核心思路由投影器在图像块层面完成视觉令牌数量的压缩而将视觉语义抽象的任务完全交由大语言模型处理。基于此我们采用一种简洁的压缩器——二维自适应池化以无参数方式对视觉图像块进行下采样。 实验结果表明DeCo 在效果与效率上均优于传统压缩式投影器。在多模态大语言模型基准测试、视觉定位以及开放式视觉问答任务上DeCo 分别实现了 0.9%、7.1% 与 2.9% 的性能提升同时可训练参数量更少、收敛速度更快。此外DeCo 能够保留视觉空间局部性并在各类多模态大语言模型结构中表现出稳健性包括不同视觉主干网络、图像分辨率与大语言模型。代码开源地址https://github.com/yaolinli/DeCo。引言多模态大语言模型MLLM[55,25,60] 为大语言模型LLM赋予了视觉感知能力并在各类视觉—语言任务中展现出极强的通用性与专业能力 [30,81,71,9,41,79,78,16]。对于多模态大语言模型而言学习良好的视觉—语言对齐是其智能表现的核心 [38,84,63,65]。为实现跨模态对齐近期研究引入了一个中间模块即**投影器projector**[45,84,51,19]将图像块特征 [22] 映射到大语言模型的嵌入空间中形成视觉令牌。 目前广泛使用的投影器大致可分为两类**非压缩型**与**压缩型**。非压缩投影器 [45] 直接采用线性层将视觉令牌的维度转换为大语言模型所需维度同时保持视觉令牌数量不变。尽管简单有效但由于视觉令牌序列较长线性投影器会带来较高的训练资源与计算开销。这种过长序列主要出现在两种常见场景中(1) 序列长度随输入分辨率呈二次增长 [36,17](2) 在处理视频帧时序列长度随图像数量线性增长 [64,72,62]极端情况下序列长度可达百万级 [47]。 另一分支是目前主流的**压缩型投影器**例如 QFormer [38,19]、Resampler [3] 和 D-Abstractor [11]。它们将原始视觉令牌聚合为更少的查询令牌以减少视觉冗余在性能与效率之间取得了更好的平衡。 然而从可解释性角度分析现有投影器如何影响视觉到语言的语义对齐这一问题仍缺乏充分研究。理解这一机制对于推动更优的结构设计、以及在高分辨率图像、视频等严苛场景下提升模型实用性至关重要。为此本文通过分析生成的文本令牌、原始图像块与投影器中间输出之间的相关性对该问题展开研究。我们首先使用一种新的可解释性工具 **R-GAE** 追溯语言到视觉的语义流。具体而言我们将图像生成文本过程中整体的“文本到图像块”语义相关性解耦为“文本到查询令牌”与“查询令牌到图像块”两个子流。其中文本到图像块的相关性揭示了大语言模型文本有效利用的来自视觉TransformerViT的视觉上下文图像块。同时查询令牌到图像块的相关性解释了查询令牌从原始图像块中学到的视觉模式。 基于 R-GAE 分析我们得出两项重要发现第一查询令牌通过**抽象语义级视觉概念**来压缩视觉令牌数量进而导致视觉语义缺失例如细粒度属性丢失与空间位置信息破坏。图1QFormer[38]投影器中压缩视觉令牌查询向量到原始图像块Patch的R-GAE相关性图可视化。QFormer将原始的576个视觉图像块令牌压缩为64个等于8×8可学习查询令牌。该相关性图取自多模态大语言模型的图像生成文本过程。 从查询-图像块相关性图放大后可以看出每个查询令牌在语义层面被不同的视觉概念激活例如目标斑马、草原、滑板、属性斑马的黑白纹理以及背景海平面。但是来自同一幅图像的不同查询令牌在视觉上较为稀疏并表现出重复模式用相同颜色框标出这限制了其视觉语义表达能力。如图 1 所示不同查询令牌会被原始图像中的不同视觉概念激活如目标、属性或背景。对于上方草原斑马的图像查询令牌分别关注三只斑马、身体部位、纹理以及远处背景等视觉模式。然而固定数量的查询令牌只能表达有限的视觉语义。具体表现为不同查询令牌在不同图像上呈现重复模式如图 1 中彩色框标注容易丢失细粒度视觉属性如图 3 中的“紫色与红色”此外已有研究表明普通 QFormer 在语义抽象过程中会丢失视觉空间位置信息 [11]。第二大语言模型本身就可以**直接从图像块特征中完成出色的视觉语义抽象**。如图 3 第一行所示使用非压缩线性投影器可让大语言模型直接感知图像块级视觉表示并精准关注对应视觉区域不会出现预先的语义缺失。 因此基于 QFormer 的多模态大语言模型系统会通过 QFormer 与大语言模型**重复进行两次视觉语义提取**我们将其称为**冗余双重抽象现象**。这种双重抽象带来两个主要缺陷(1) 语义层面的视觉缺陷累积即 QFormer 抽象过程中丢失的细粒度语义与空间位置信息会传递给大语言模型(2) 为优化一个高效的视觉语义抽象器训练复杂度显著增加。为此需要一种更高效的压缩投影器既能简化训练复杂度又能保留更多视觉上下文。 本文提出将**令牌数量压缩与视觉语义抽象解耦DeCo**。DeCo 的核心是使用更简洁的投影器直接在图像块层面操作并输出视觉令牌以减少视觉令牌数量随后由大语言模型独立从压缩后的令牌中抽象视觉语义概念。在 DeCo 框架中我们采用简单的**二维自适应平均池化**作为天然的图像块级下采样器再通过线性层完成视觉维度映射。 该投影器具有三重优势第一可通过自动计算池化核大小与步幅灵活将视觉令牌压缩到任意指定数量且无参数收敛更快。第二基于核的操作与邻域块融合能够保留视觉空间位置信息。在相同设置下与主流压缩投影器的对比实验验证了 DeCo 框架的有效性与高效性。同时DeCo 表现出更强的空间理解能力并在不同多模态大语言模型配置下具备稳健性包括不同视觉主干网络、图像分辨率与大语言模型。 总而言之本文的主要贡献有三点(1) 设计了一种新的分析工具 R-GAE用于解析多模态大语言模型投影器中学到的视觉语义。(2) 借助该工具揭示了语义层面的双重抽象现象这一现象会导致多模态大语言模型性能受损。针对该问题我们提出 DeCo 架构通过自适应池化机制实现令牌压缩与视觉语义抽象的解耦。 (3) 实验结果表明DeCo 简洁高效能显著提升多模态大语言模型在多个基准上的空间理解能力。3 视觉投影器分析在本节中我们使用一种新颖的 R‑GAE 可解释性工具从**语义流**的角度分析投影器模块对多模态大语言模型MLLM的影响。在图像到文本生成过程中视觉上下文对大语言模型LLM的感知能力起着不可或缺的作用。图像与文本之间的相关相关性图如注意力图[74] 可用于解释视觉—语言语义对齐效果 [14,77,10,61]。如图 2 所示给定 MLLM 结构中的一段参考描述从文本单词回溯到图像块的相关性图记为**文本到图像块**能够体现与 LLM 对齐的视觉语义并进一步指示 LLM 所利用的有效视觉上下文。为探究作为中间模块的投影器所产生的影响我们将文本到图像块的相关性图**拆解**为文本到查询向量、查询向量到图像块这两个子图如图 3 所示。其中查询向量到图像块的图可以解释查询压缩令牌学到的视觉模式而由投影器导致的文本到图像块与文本到查询向量之间的差异则揭示了投影器对视觉—语言语义对齐的影响。 一个典型的 MLLM 结构包括一个视觉 TransformerViT用于获取包含 \(N\) 个图像块的视觉表示一个投影器用于将视觉表示映射到文本嵌入空间以及一个 LLM用于同时处理视觉令牌与指令令牌输出隐状态并生成回答。我们将广泛使用的投影器归纳为两类- **非压缩型投影器**保持图像块令牌数量 \(N\) 不变仅变换视觉嵌入维度以匹配 LLM 维度例如线性投影器 [45]。投影后的视觉令牌可记为。- **压缩型投影器**将图像块令牌数量 \(N\) 减少到指定的更小数量 \(M\)\(MN\)从而节省训练资源。例如 QFormer [38] 通过学习预定义的查询令牌来压缩原始视觉令牌。这些压缩后的查询令牌随后被送入 LLM 以提供视觉信息。 为清晰表述我们在本文中对**压缩**与**抽象**两个概念进行区分压缩特指视觉令牌数量的减少而抽象指对视觉语义概念如目标、属性等的提取。3.1 R‑GAE基于 GAE 的 MLLM 相关性图我们旨在利用拆解后的文本到查询向量、查询向量到图像块的相关性图来分析投影器模块。一个直接的思路是使用 MLLM 各层中的原始注意力图作为相关性图 [61]。然而注意力图仅反映单层内令牌之间的交互 [14]。我们需要的是一种能够**回溯 MLLM 中任意两层之间令牌对齐关系**的相关性图例如从中间层查询向量到初始层输入图像块的对齐。为实现这一目标我们提出一种新颖的 R‑GAE 相关性图它基于通用注意力可解释性GAE[13] 推导而来。R‑GAE 将原本为分类任务设计的 GAE 方法扩展到生成式 MLLM 中并使其适配典型 MLLM 结构能够通过传播计算 MLLM 内任意两层之间的相关性。 我们初始化三类 R‑GAE 相关性图文本到图像块 \(R^{T\to I}\)、文本到查询向量 \(R^{T\to Q}\)、查询向量到图像块 \(R^{Q\to I}\)。基于“初始时每个输入令牌的相关性得分相等”这一直觉每类图均初始化为单位矩阵。给定一张图像和一条指令如“请用简洁的句子描述这张图”MLLM 会依据视觉信息生成文本描述。在生成第 t 步时我们可以在前向传播中缓存 ViT、投影器与 LLM 的注意力图。随后以单词类别为目标预测通过反向传播得到对应的梯度。对每一层利用梯度在多个注意力头上取平均即可得到单张 R‑GAE 相关性图。对于第 \(t\) 步我们可以将文本到查询向量图从 LLM 第一层传播至最后一层得到最终图。同理查询向量到图像块图可从投影器第一层传播至最后一层。 整体的文本到图像块相关性图可通过矩阵相乘得到对于完整句子 \(Y\)我们对每一时间步 \(t\) 的 R‑GAE 相关性图取平均得到与真实句子相关的整体视觉相关性。我们以图文对中的真实描述作为目标回答执行反向传播这使得使用不同投影器的 MLLM 拥有一致的参考文本到图像块可视化结果。我们在附录 A 中提供 GAE 的背景知识与 R‑GAE 的具体传播公式并在附录 B 中对比 R‑GAE 与原始注意力图的可视化效果。3.2 压缩型投影器导致的冗余双重抽象现象基于 R‑GAE 图我们分析不同类型的投影器并探究它们如何影响视觉到语言的语义对齐。为保证公平对比与分析我们训练了结构完全相同、仅投影器不同的 MLLM并保持其他所有变量一致实验细节见 5.1 节。我们在图 3 中可视化了非压缩投影器即线性层与压缩投影器即 QFormer的 R‑GAE 图并得出以下发现。**发现 1LLM 可以直接从图像块表示中成为优秀的视觉语义抽象器。** 非压缩投影器将图像块表示直接输入 LLM。如图 3 第一行所示给定一段包含视觉目标遥控器、按钮与属性紫色、红色的描述LLM 能够以细粒度方式高亮最相关的视觉区域精准区分出带有紫红色按钮的遥控器。这表明 LLM 已在图像块表示的基础上建立了强文本—视觉语义对齐。近期采用非压缩投影的 MLLM [46,37,15] 取得成功进一步证明 LLM 本身就是高效的视觉语义抽象器。例如使用简单 MLP 的 LLaVA‑NeXT [46] 在多个多模态基准上达到了最优性能。**发现 2压缩型投影器从图像块中提取的视觉语义概念有限。** QFormer 等压缩型投影器会预先从图像块中提取视觉语义概念并向 LLM 提供语义层面上已精简的视觉令牌。如图 3 中的查询向量到图像块图所示压缩后的 8×8 查询向量会被不同的视觉语义模式激活如各类遥控器、按钮、控制面板与黑色底板。然而固定数量的查询向量只能覆盖图像中有限的视觉语义概念。对比 64 个令牌的视觉模式后我们发现它们在视觉上重复、语义上稀疏。例如位置 (0,1) 与 (2,0) 的查询向量几乎完全相同都关注右侧遥控器的右下区域。这些稀疏的查询向量导致**视觉语义缺失**丢失了“紫红色按钮”这一细粒度属性。因此当 LLM 在查询向量语义空间中再次提取视觉上下文时会受到这种不可逆的视觉语义缺失影响。从文本到查询向量图可以看到LLM 主要关注 (0,2)、(0,4)、(4,5) 位置的查询向量红框标出最终导致文本与图像块的对齐错误这一点在文本到图像块图中得到验证。更多可视化样例见附录 D。 **核心洞察视觉语义双重抽象导致 MLLM 系统效率低下。** 基于上述观察我们得出结论现有学习固定数量查询向量的压缩型投影器在减少视觉令牌数量上属于**低效压缩器**。它们会形成一种“双重抽象”的 MLLM 系统视觉语义先由投影器抽象再由 LLM 重新提取。这种双重抽象过程存在两个主要缺陷 (1) **视觉语义累积丢失**。投影器作为连接 ViT 与 LLM 的中间模块其在第一轮抽象中丢失的视觉语义会成为整个 MLLM 系统的瓶颈。 (2) **训练复杂度上升**。为缓解语义丢失需要将投影器优化为有效的语义抽象器这会显著增加训练代价与复杂度。例如使用重采样器投影器的 Qwen‑VL‑7B [6] 需要经过三个训练阶段使用 14 亿预训练数据与 5000 万微调数据。

更多文章