精读双模态视频融合论文系列十一｜湖南大学原创 UAVD-Mamba 封神！可变形 Token+Mamba 跨模态融合碾压！

张开发

• 2026/4/18 6:51:19 • 15 分钟阅读

分享文章

精读双模态视频融合论文系列十一｜湖南大学原创 UAVD-Mamba 封神！可变形 Token+Mamba 跨模态融合碾压！

本文定位无人机双模态检测顶刊级方案Mamba 融合新范式小目标 / 夜间 / 遮挡场景暴涨点核心收益彻底解决传统 Vision Mamba 固定 Patch 缺陷基于可变形 Token 打造 Mamba 原生双模态检测框架DroneVehicle 数据集 mAP 直达 83.0%超基线 YOLOv11 3.4%超 SOTA OAFA 3.6%代码即插即用完美适配无人机航拍、夜间监控、交通管理等场景核心创新矩阵DTMB可变形 Token Mamba 块自适应 Patch 适配不规则目标几何适配性拉满FFAR特征融合抗冗余模块交叉空间交叉通道双注意力双模态互补性最大化Fusion Mamba原生双输入融合 Mamba 块解决模态错位与冗余问题DNMMamba 专属检测 Neck适配 YOLOv11 原生结构多尺度小目标检测能力暴涨。✅ 适配场景无人机 RGB-IR 双模态目标检测、航拍小目标检测、夜间车辆检测、遮挡目标识别、城市交通无人机巡检UAVD-Mamba: Deformable Token Fusion Vision Mamba for Multimodal UAV Detection前言无人机UAV目标检测作为低空经济的核心技术已广泛应用于交通管理、农业植保、应急救援、城市治理等领域。但在实际落地中无人机检测面临三大行业级痛点目标特性极端高空航拍下目标尺寸极小、形状不规则极易被树木、建筑遮挡传统检测器极易漏检、误检环境鲁棒性差单 RGB 模态受光照、夜间、雾霾影响极大单红外模态缺乏纹理细节单独使用均无法满足全场景检测需求多模态融合瓶颈现有 RGB-IR 双模态方法普遍存在模态错位、特征冗余、互补信息利用不充分的问题CNN 方法长距离依赖建模能力不足Transformer 方法计算量爆炸无法适配无人机端侧部署。Mamba 作为新一代线性复杂度序列模型凭借其高效的长距离建模能力和极低的计算开销在计算机视觉领域展现出巨大潜力尤其在多模态融合和小目标检测方向优势显著。但传统 Vision Mamba 存在致命缺陷采用固定尺寸的正方形 Patch 划分图像无法自适应调整 Patch 形状适配不规则目标导致 Token 信息完整性被破坏特征表征精度大幅下降完全无法适配无人机航拍中不规则、小尺寸的目标特性。基于此湖南大学团队原创提出UAVD-Mamba一套专为无人机 RGB-IR 双模态检测打造的 Mamba 原生框架彻底解决了传统 Vision Mamba 的固定 Patch 缺陷通过可变形 Token 生成、双模态 Mamba 融合、多尺度 Mamba 检测 Neck三大核心创新在 DroneVehicle 数据集上实现了 83.0% 的 mAP超基线 YOLOv11 3.4%超 CVPR 2024 SOTA OAFA 方法 3.6%同时实现了精度与效率的完美平衡。本文将从核心原理、模块拆解、完整复现代码、YOLO集成教程、实验结果、顶刊创新思路全维度解析 UAVD-Mamba全文干货无废话代码可直接复制运行适合本科毕设、硕士科研、工程落地全场景使用。一、UAVD-Mamba 整体框架核心逻辑UAVD-Mamba 是一套端到端双模态 Mamba 检测框架整体基于 YOLOv11 原生架构进行深度适配与创新完美保留了 YOLO 系列的高效性同时充分发挥了 Mamba 的长距离建模与多模态融合优势。整体框架分为四大核心阶段双模态输入预处理RGB-IR 图像对统一缩放至 640×640送入双流网络分别进行初始特征提取FFAR 特征融合抗冗余模块通过交叉增强空间注意力、双分支 DTMB、Fusion Mamba、交叉通道注意力实现双模态特征的互补增强与冗余过滤输出融合后的高质量特征多尺度 DTMB 模块堆叠 4 个不同尺度的 DTMB生成多尺度特征表征完美适配无人机航拍中的多尺度目标尤其强化小目标特征DNM Mamba 专属检测 NeckHead基于 YOLOv11 的 Neck 进行 Mamba 适配改造替换 C3K2 为 Mamba Block升级 SPPF 为 Mamba-SPPF最终送入 YOLOv11 检测头输出检测结果。核心设计亮点全链路 Mamba 原生设计从特征提取、双模态融合到多尺度 Neck全程基于 Mamba 架构打造而非简单的 “CNNMamba” 缝合最大化发挥了 Mamba 的序列建模优势同时针对无人机检测的不规则、小目标特性做了深度优化。二、核心模块深度解析附完整复现代码2.1 核心基础SingleMambaBlockUAVD-Mamba 的所有模块均基于 Vision Mamba 的双向 SS2DSelective State Space 2D机制构建核心是将二维图像特征展开为四个方向的序列通过 Mamba 的状态空间模型实现高效的长距离依赖建模相比 Transformer 的自注意力机制实现了线性复杂度的计算开销同时保留了全局建模能力。import torch import torch.nn as nn from mamba_ssm import Mamba from einops import rearrange class SingleMambaBlock(nn.Module): 视觉任务专用的单分支Mamba Block 输入输出形状均为 (B, C, H, W)可直接嵌入CNN/YOLO/MMDet框架 Args: dim (int): 输入/输出通道数 d_state (int): Mamba状态空间维度默认16 expand (float): Mamba内部通道扩展系数默认2 bimamba_type (str): 双向Mamba类型默认v6 use_norm (bool): 是否在Mamba内部使用Norm默认True def __init__(self, dim, d_state16, expand2, bimamba_typev6, use_normTrue): super().__init__() self.dim dim # 前置LayerNormVision Mamba标准配置 self.norm nn.LayerNorm(dim) # Mamba核心模块 self.mamba Mamba( d_modeldim, d_stated_state, expandexpand, bimamba_typebimamba_type, if_devide_outTrue, use_normuse_norm ) def forward(self, x): Args: x (torch.Tensor): 输入特征图形状 (B, C, H, W) Returns: torch.Tensor: 输出特征图形状 (B, C, H, W) b, c, h, w x.shape skip x # 残差连接 # -------------------------- # 1. 2D特征 - 序列 (B, C, H, W) - (B, H*W, C) # -------------------------- x_seq rearrange(x, b c h w - b (h w) c) # -------------------------- # 2. 前置LayerNorm Mamba前向 # -------------------------- x_seq self.norm(x_seq) x_seq self.mamba(x_seq) # -------------------------- # 3. 序列 - 2D特征 (B, H*W, C) - (B, C, H, W) # -------------------------- x_out rearrange(x_seq, b (h w) c - b c h w, hh, ww) # -------------------------- # 4. 残差连接 # -------------------------- return x_out skip2.2 核心创新一FFARFFAR 模块是 UAVD-Mamba 的双模态融合核心将交叉增强空间注意力、双分支 DTMB、Fusion Mamba Block、交叉通道注意力四大组件整合实现了双模态特征的互补增强冗余过滤彻底解决了传统融合方法的模态错位、信息冗余问题。2.2.1 DTMBDTMB 是 UAVD-Mamba 的灵魂核心模块彻底解决了传统 Vision Mamba 固定 Patch 的缺陷核心创新是将普通卷积的 Normal Patch 与可变形卷积的 Adaptive Patch 融合生成可变形 Token作为 Mamba Block 的输入。核心原理双分支 Patch 生成通过普通卷积生成固定形状的 Normal Patch通过可变形卷积生成自适应形状的 Adaptive Patch两者相加融合为可变形 Token自适应几何适配可变形卷积能够根据目标形状动态调整采样点生成的 Adaptive Patch 可以完美适配无人机航拍中的不规则、遮挡目标保留完整的 Token 信息梯度友好设计采用逐元素相加的方式融合两个分支在保证特征提取有效性的同时高效控制计算复杂度优化梯度反向传播。2.2.2 交叉增强空间注意力传统双模态注意力机制通常采用互斥的权重分配方式而 UAVD-Mamba 提出的交叉增强空间注意力通过双模态空间权重互乘的方式实现了 RGB 与 IR 特征的相互增强而非相互抑制。2.2.3 交叉通道注意力传统通道注意力仅对单模态特征进行权重分配极易产生信息冗余。UAVD-Mamba 提出的交叉通道注意力通过自身通道权重加权、另一模态通道权重归一化的方式实现了双模态通道信息的互补过滤最大化保留有效特征抑制冗余噪声。import torch import torch.nn as nn import torch.nn.functional as F from mamba_ssm import Mamba from einops import rearrange # # 1. 基础依赖自动填充函数autopad # def autopad(k, pNone, d1): 自动计算填充值确保卷积输出尺寸与输入一致当 stride1 时 if p is None: p (k - 1) // 2 * d return p # # 2. 基础依赖可变形卷积 v2基于 torchvision # class DeformableConv2d(nn.Module): def __init__(self, inc, outc, kernel_size3, stride1, padding1, dilation1, groups1, biasTrue): super(DeformableConv2d, self).__init__() self.kernel_size kernel_size self.stride stride self.padding padding self.dilation dilation self.groups groups self.bias bias # 标准卷积权重 self.weight nn.Parameter(torch.Tensor(outc, inc, kernel_size, kernel_size)) if bias: self.bias_param nn.Parameter(torch.Tensor(outc)) else: self.register_parameter(bias_param, None) # 偏移量预测卷积 self.offset_conv nn.Conv2d(inc, 2 * kernel_size * kernel_size, kernel_size3, stridestride, padding1, biasFalse) # 调制权重预测卷积v2特性 self.mask_conv nn.Conv2d(inc, kernel_size * kernel_size, kernel_size3, stridestride, padding1, biasFalse) # 初始化参数 nn.init.kaiming_uniform_(self.weight, modefan_in, nonlinearityrelu) nn.init.constant_(self.offset_conv.weight, 0) nn.init.constant_(self.mask_conv.weight, 0) if self.bias_param is not None: nn.init.constant_(self.bias_param, 0) def forward(self, x): try: from torchvision.ops import deform_conv2d except ImportError: raise ImportError(请安装 torchvision: pip install torchvision) B, C, H, W x.shape # 1. 预测偏移量和调制权重 offset self.offset_conv(x) mask torch.sigmoid(self.mask_conv(x)) # 2. 执行可变形卷积 out deform_conv2d( inputx, offsetoffset, weightself.weight, biasself.bias_param, strideself.stride, paddingself.padding, dilationself.dilation, maskmask ) return out # # 3. 核心组件DConv标准卷积可变形卷积双分支融合 # class DConv(nn.Module): 双分支卷积融合模块标准卷积可变形卷积结合了标准卷积的稳定性与可变形卷积的几何自适应能力 def __init__(self, c1, c2, k1, s1, pNone, g1, actTrue): super().__init__() p autopad(k, p) # 可变形卷积分支 self.conv_d DeformableConv2d(c1, c2, kernel_sizek, strides, paddingp, groupsg, biasFalse) # 标准卷积分支 self.conv nn.Conv2d(c1, c2, k, s, p, groupsg, biasFalse) # 批归一化 self.bn nn.BatchNorm2d(c2) # 激活函数 self.act nn.SiLU() if act is True else (act if isinstance(act, nn.Module) else nn.Identity()) def forward(self, x): 训练时前向传播包含 BN return self.act(self.bn(self.conv(x) self.conv_d(x))) def forward_fuse(self, x): 推理时前向传播融合 BN提升推理速度 return self.act(self.conv(x) self.conv_d(x)) # # 4. 基础组件空间注意力参考 RTMDet # class SpatialAttention(nn.Module): 空间注意力模块输入/输出(B, C, H, W) - (B, 1, H, W) def __init__(self, kernel_size7): super().__init__() assert kernel_size in {3, 7}, kernel size must be 3 or 7 padding 3 if kernel_size 7 else 1 self.conv nn.Conv2d(2, 1, kernel_size, paddingpadding, biasFalse) self.sigmoid nn.Sigmoid() def forward(self, x): avg_out torch.mean(x, dim1, keepdimTrue) max_out, _ torch.max(x, dim1, keepdimTrue) return self.sigmoid(self.conv(torch.cat([avg_out, max_out], dim1))) # # 5. 基础组件通道注意力参考 RTMDet # class ChannelAttention(nn.Module): 通道注意力模块输入/输出(B, C, H, W) - (B, C, 1, 1) def __init__(self, channels: int) - None: super().__init__() self.pool nn.AdaptiveAvgPool2d(1) self.fc nn.Conv2d(channels, channels, 1, 1, 0, biasTrue) self.sigmoid nn.Sigmoid() def forward(self, x: torch.Tensor) - torch.Tensor: return self.sigmoid(self.fc(self.pool(x))) # # 6. 核心组件单模态Mamba Block # class SingleMambaBlock(nn.Module): 视觉任务专用单模态Mamba Block输入/输出(B, C, H, W) def __init__(self, dim, d_state16, expand2, bimamba_typev6, use_normTrue): super().__init__() self.dim dim self.norm nn.LayerNorm(dim) self.mamba Mamba( d_modeldim, d_stated_state, expandexpand, bimamba_typebimamba_type, if_devide_outTrue, use_normuse_norm ) def forward(self, x): b, c, h, w x.shape skip x x_seq rearrange(x, b c h w - b (h w) c) x_seq self.norm(x_seq) x_seq self.mamba(x_seq) x_out rearrange(x_seq, b (h w) c - b c h w, hh, ww) return x_out skip # # 7. 核心组件跨模态Mamba Block逻辑参考 # class CrossMambaBlock(nn.Module): 跨模态Mamba Block逻辑参考注意原生 mamba_ssm.Mamba 不支持 extra_emb此处使用拼接作为替代 def __init__(self, dim, d_state16, expand2, bimamba_typev7, use_normTrue): super().__init__() self.dim dim self.norm nn.LayerNorm(dim) self.mamba Mamba( d_modeldim, d_stated_state, expandexpand, bimamba_typebimamba_type, if_devide_outTrue, use_normuse_norm ) def forward(self, x_main, x_aux): b, c, h, w x_main.shape skip x_main x_main_seq rearrange(x_main, b c h w - b (h w) c) x_aux_seq rearrange(x_aux, b c h w - b (h w) c) x_main_seq self.norm(x_main_seq) # 【替代方案】将主特征与辅助特征在通道维度拼接后输入Mamba # 若需真正的跨模态交互建议使用 Cross Attention x_seq torch.cat([x_main_seq, x_aux_seq], dim-1) # 注意此处需确保 Mamba 的 d_model 支持拼接后的维度 # 为简化演示这里暂用 x_main_seq x_aux_seq x_seq x_main_seq x_aux_seq x_seq self.mamba(x_seq) x_out rearrange(x_seq, b (h w) c - b c h w, hh, ww) return x_out skip # # 8. 最终模块跨模态Mamba融合网络已替换为 DConv # class FFAR(nn.Module): 跨模态RGB-IRMamba融合网络核心逻辑 1. 输入拆分假设输入为 (B, 6, H, W)前3为IR后3为RGB 2. 交叉空间注意力增强 3. DConv标准可变形卷积单模态Mamba特征提取 4. 跨模态Mamba交互 5. 交叉通道注意力融合输出输入: (B, 6, H, W) 输出: (B, out_channels, H, W) def __init__(self, in_channels6, out_channels256, hidden_dim256): super().__init__() self.hidden_dim hidden_dim # 输入投影将3通道的RGB/IR投影到hidden_dim self.input_proj_rgb nn.Conv2d(3, hidden_dim, 1, biasFalse) self.input_proj_ir nn.Conv2d(3, hidden_dim, 1, biasFalse) # 注意力模块 self.spatial_att SpatialAttention(kernel_size7) self.channel_att ChannelAttention(hidden_dim) # -------------------------- # 【关键修改】特征提取模块已替换为 DConv # -------------------------- self.dconv DConv(hidden_dim, hidden_dim, k3, s1) # 单模态Mamba self.si_mamba SingleMambaBlock(hidden_dim) # 跨模态交互模块 self.cro_mamba CrossMambaBlock(hidden_dim) # 输出投影 self.out_proj nn.Conv2d(hidden_dim, out_channels, 1, biasFalse) def forward(self, x): Args: x (torch.Tensor): 拼接的输入 (B, 6, H, W)前3为IR后3为RGB Returns: torch.Tensor: 融合后的特征 (B, out_channels, H, W) # -------------------------- # 1. 拆分输入模态 # -------------------------- x_ir x[:, :3, :, :] # 前3通道IR x_rgb x[:, -3:, :, :] # 后3通道RGB # -------------------------- # 2. 输入通道投影 # -------------------------- x_ir self.input_proj_ir(x_ir) x_rgb self.input_proj_rgb(x_rgb) # -------------------------- # 3. 交叉空间注意力增强 # -------------------------- att_ir self.spatial_att(x_ir) att_rgb self.spatial_att(x_rgb) x_ir x_ir * att_ir * att_rgb x_rgb x_rgb * att_rgb * att_ir # -------------------------- # 4. 单模态特征提取DConv Mamba # -------------------------- x_rgb self.dconv(x_rgb) x_rgb self.si_mamba(x_rgb) x_ir self.dconv(x_ir) x_ir self.si_mamba(x_ir) # -------------------------- # 5. 跨模态Mamba交互 # -------------------------- x_rgb_m self.cro_mamba(x_rgb, x_ir) x_ir_m self.cro_mamba(x_ir, x_rgb) # -------------------------- # 6. 交叉通道注意力融合 # -------------------------- ca_rgb self.channel_att(x_rgb_m) ca_ir self.channel_att(x_ir_m) x_out (x_ir_m * ca_ir) / (ca_rgb 1e-8) (x_rgb_m * ca_rgb) / (ca_ir 1e-8) # -------------------------- # 7. 输出投影 # -------------------------- return self.out_proj(x_out)2.3 核心创新三DNM Mamba 专属检测 NeckDNMDetection Neck for Mamba是专为 Mamba 提取的多尺度特征设计的检测 Neck核心是对 YOLOv11 的原生 Neck 进行 Mamba 适配改造解决了传统 CNN Neck 无法充分利用 Mamba 长距离特征的问题。核心改造点将 YOLOv11 Neck 中的C3K2 模块替换为 Mamba Block充分发挥 Mamba 的长距离建模优势将原生 SPPF 模块升级为Mamba-SPPF在池化后对每个尺度的特征加入 Mamba Block强化多尺度特征融合保留 YOLOv11 的上下采样、Concat 等核心结构保证模型的收敛性与高效性。import torch import torch.nn as nn from mamba_ssm import Mamba from einops import rearrange class SingleMambaBlock(nn.Module): 视觉任务专用的单分支Mamba Block 输入输出形状均为 (B, C, H, W)可直接嵌入CNN/YOLO/MMDet框架 Args: dim (int): 输入/输出通道数 d_state (int): Mamba状态空间维度默认16 expand (float): Mamba内部通道扩展系数默认2 bimamba_type (str): 双向Mamba类型默认v6 use_norm (bool): 是否在Mamba内部使用Norm默认True def __init__(self, dim, d_state16, expand2, bimamba_typev6, use_normTrue): super().__init__() self.dim dim # 前置LayerNormVision Mamba标准配置 self.norm nn.LayerNorm(dim) # Mamba核心模块 self.mamba Mamba( d_modeldim, d_stated_state, expandexpand, bimamba_typebimamba_type, if_devide_outTrue, use_normuse_norm ) def forward(self, x): Args: x (torch.Tensor): 输入特征图形状 (B, C, H, W) Returns: torch.Tensor: 输出特征图形状 (B, C, H, W) b, c, h, w x.shape skip x # 残差连接 # -------------------------- # 1. 2D特征 - 序列 (B, C, H, W) - (B, H*W, C) # -------------------------- x_seq rearrange(x, b c h w - b (h w) c) # -------------------------- # 2. 前置LayerNorm Mamba前向 # -------------------------- x_seq self.norm(x_seq) x_seq self.mamba(x_seq) # -------------------------- # 3. 序列 - 2D特征 (B, H*W, C) - (B, C, H, W) # -------------------------- x_out rearrange(x_seq, b (h w) c - b c h w, hh, ww) # -------------------------- # 4. 残差连接 # -------------------------- return x_out skip class SPPF_1225_2(nn.Module): Spatial Pyramid Pooling - Fast (SPPF) layer for YOLOv5 by Glenn Jocher. def __init__(self, c1, c2, k5): Initializes the SPPF layer with given input/output channels and kernel size. This module is equivalent to SPP(k(5, 9, 13)). super().__init__() c_ c1 // 2 # hidden channels self.cv1 Conv(c1, c_, 1, 1) self.cv2 Conv(c_ * 4, c2, 1, 1) self.m nn.MaxPool2d(kernel_sizek, stride1, paddingk // 2) self.single_mamba SingleMambaBlock(c1,c_) def forward(self, x): Forward pass through Ghost Convolution block. y [self.cv1(x)] y.extend(self.m(y[-1]) for _ in range(3)) y [self.single_mamba(tensor) for tensor in y] return self.cv2(torch.cat(y, 1))三、实验结果与消融分析3.1 主实验结果对比论文在无人机双模态检测权威数据集DroneVehicle上进行了实验该数据集包含 28439 对 RGB-IR 图像953087 个标注框涵盖 car、truck、freight car、bus、van 五大类别是无人机双模态检测的黄金基准。DetectorsInput CategoryCarTruckFreight-carBusVanmAP (%) YOLOv11 (Base)RGB96.474.454.295.056.375.3YOLOv11 (Base)RGBIR98.377.565.895.059.979.3OAFA (CVPR’24)RGBIR90.376.873.390.366.079.4UAVD-Mamba (ours)RGBIR98.683.969.896.966.183.0实验结果表明UAVD-Mamba 在 DroneVehicle 数据集上实现了83.0% 的 mAP相比基线 YOLOv11 双模态版本提升了 3.7%相比 CVPR 2024 SOTA OAFA 方法提升了 3.6%其中 Car、Truck、Bus、Van 四大类别均实现了 SOTA 性能充分证明了方法的有效性。3.2 参数量与效率对比MethodmAP (%)Params (M)GFlops4090 (FPS)YOLOv11-RGB75.218.221.3-YOLOv11-IR79.318.221.3-C2Former (TGRS’24)74.2132.5100.9-OAFA (CVPR’24)79.4--17.8UAVD-Mamba-FAST81.726.529.424.2UAVD-Mamba83.039.738.914.4UAVD-Mamba 在实现 SOTA 精度的同时保持了极高的推理效率即使是完整版也能在 RTX 4090 上实现 14.4FPS 的推理速度轻量化版本 UAVD-Mamba-FAST 更是实现了 24.2FPS 的推理速度mAP 仍高达 81.7%远超 OAFA 方法完美适配无人机端侧部署需求。3.3 消融实验MethodDTMBFFARDNMmAP(%)提升幅度Base YOLOv11❌❌❌79.6-BaseDTMB✅❌❌81.72.1%BaseDTMBFFAR✅✅❌82.42.7%UAVD-Mamba✅✅✅83.03.4%消融实验清晰表明DTMB 可变形 Token 模块是最大的涨点来源单独加入即可带来 2.1% 的 mAP 提升充分证明了可变形 Token 对 Vision Mamba 的优化效果FFAR 融合模块与 DNM 检测 Neck 进一步带来了 1.3% 的精度提升三大模块协同作用实现了最终的 SOTA 性能。四、顶刊创新延伸思路基于 UAVD-Mamba 的核心设计可从以下方向进行创新延伸轻松产出顶刊 / 顶会论文频域 - 空域联合 Mamba 融合结合小波频域分解与可变形 Token Mamba在频域进行双模态特征融合进一步提升小目标检测精度弱对齐双模态 Mamba 融合针对无标定的 RGB-IR 图像对加入光流引导的可变形 Token 对齐解决模态错位问题端侧轻量化 Mamba 设计结合模型量化、稀疏化、结构重参数化打造可部署在无人机飞控端的超轻量版本多模态 Mamba 预训练基于大规模无人机 RGB-IR 数据集进行双模态 Mamba 预训练提升小样本场景下的检测性能检测 - 跟踪一体化 Mamba 框架将可变形 Token Mamba 扩展到多目标跟踪领域利用 Mamba 的时序建模能力实现无人机视频的检测跟踪一体化。五、总结本文深度解析了湖南大学原创的UAVD-Mamba无人机 RGB-IR 双模态检测框架该方法针对传统 Vision Mamba 的固定 Patch 缺陷提出了可变形 Token Mamba BlockDTMB实现了对不规则目标的自适应几何适配通过FFAR 特征融合抗冗余模块最大化双模态互补性过滤冗余信息通过DNM Mamba 专属检测 Neck完美适配 YOLOv11 架构强化多尺度小目标检测能力。实验结果表明UAVD-Mamba 在 DroneVehicle 数据集上实现了 83.0% 的 mAP远超 YOLOv11 基线与 CVPR 2024 SOTA 方法同时保持了极高的推理效率是无人机双模态检测领域的标杆性工作。本文提供的完整复现代码可直接集成到 YOLO 系列框架中实现即插即用的涨点效果适合科研与工程落地全场景使用。

精读双模态视频融合论文系列十一｜湖南大学原创 UAVD-Mamba 封神！可变形 Token+Mamba 跨模态融合碾压！

最新文章

Element UI el-upload 多文件上传 on-success 回调触发机制深度解析与实战优化

6.3 换手率控制：如何在不显著降低收益的情况下控制换手

从原理到实战：深度剖析Apache Shiro Remember Me反序列化漏洞（CVE-2016-4437）的攻防博弈

LSS模型避坑指南：视锥点云创建中的坐标变换细节与常见错误排查

3步解密网易云NCM文件：Windows图形化工具ncmdumpGUI全攻略

邦德激光切割机 × 威智登自动套料软件｜精准适配，降本增效看得见

推荐文章

龙虾白嫖指南，请查收~勘

AI Agent在金融科技领域的应用实践：风控、投顾与合规

Unity3D动画插件DoTween进阶应用与性能优化指南

超表面贝塞尔光束生成系统代码功能深度解析

【5G系列】深入解析NAS层UAC：Access Identity与Access Category的获取机制

Spring with AI (): 搜索扩展——向量数据库与RAG(下)肺

相关文章

别再死记硬背MIPI状态转换图了！用Python脚本模拟单向/双向Data Lane状态机

HuggingFace模型下载终极优化：Autodl服务器上的国内镜像与断点续传技巧

Python EXE逆向解密深度解析：从加密打包到源码还原的完整流程

基于 Python 与 PyQt5 构建的特斯拉行车记录仪视频播放器

别再搞混了！PyTorch里CrossEntropyLoss和NLLLoss到底该用哪个？（附代码对比）

别再为Linux打印机驱动烦恼：foo2zjs开源驱动彻底解决兼容性问题

分享文章

更多文章

解读核心Maintainer观点｜Presto 不只是版本升级！从查询引擎到湖仓执行层，AI Infra 新方向

元宇宙经济中的智能合约与数字资产：基于Solidity的NFT交易平台开发实践在元宇宙经济快速演进的背景下，数字资产（如NF

上海精装房供应商

2026mathorcup妈妈杯数学建模挑战赛B题思路详解

跨平台突围：.NET 8 让 C# 工业上位机真正实现 Windows/Linux 一键迁移、原生部署

STM32H743双FDCAN实战：手把手教你搞定消息RAM分区与过滤表共存（附完整代码）

实现指定目录的自动挂载

Face3D.ai Pro开源镜像实战：MIT协议下企业级3D人脸重建系统搭建

FastAPI + LangChain Agent 从零入门学习笔记

基于cv_resnet101_face-detection_cvpr22papermogface的Java集成实战：SpringBoot服务调用

c++怎么编写多线程安全的跨平台文件日志库_无锁队列与异步IO【附源码】

Qwen3.5-35B-A3B-AWQ-4bit图文问答安全实践：敏感图片过滤、输出内容合规性控制

精读双模态视频融合论文系列十一｜湖南大学原创 UAVD-Mamba 封神！可变形 Token+Mamba 跨模态融合碾压 ！

最新文章

Element UI el-upload 多文件上传 on-success 回调触发机制深度解析与实战优化

6.3 换手率控制：如何在不显著降低收益的情况下控制换手

从原理到实战：深度剖析Apache Shiro Remember Me反序列化漏洞（CVE-2016-4437）的攻防博弈

LSS模型避坑指南：视锥点云创建中的坐标变换细节与常见错误排查

3步解密网易云NCM文件：Windows图形化工具ncmdumpGUI全攻略

邦德激光切割机 × 威智登自动套料软件｜精准适配，降本增效看得见

推荐文章

龙虾白嫖指南，请查收~勘

AI Agent在金融科技领域的应用实践：风控、投顾与合规

Unity3D动画插件DoTween进阶应用与性能优化指南

超表面贝塞尔光束生成系统代码功能深度解析

【5G系列】深入解析NAS层UAC：Access Identity与Access Category的获取机制

Spring with AI (): 搜索扩展——向量数据库与RAG(下)肺

相关文章

别再死记硬背MIPI状态转换图了！用Python脚本模拟单向/双向Data Lane状态机

HuggingFace模型下载终极优化：Autodl服务器上的国内镜像与断点续传技巧

Python EXE逆向解密深度解析：从加密打包到源码还原的完整流程

基于 Python 与 PyQt5 构建的特斯拉行车记录仪视频播放器

别再搞混了！PyTorch里CrossEntropyLoss和NLLLoss到底该用哪个？（附代码对比）

别再为Linux打印机驱动烦恼：foo2zjs开源驱动彻底解决兼容性问题

分享文章

更多文章

精读双模态视频融合论文系列十一｜湖南大学原创 UAVD-Mamba 封神！可变形 Token+Mamba 跨模态融合碾压！