第 4 章 视觉感知与场景理解

张开发
2026/4/19 3:50:39 15 分钟阅读

分享文章

第 4 章 视觉感知与场景理解
4.1 视觉特征提取4.1.1 卷积神经网络基础4.1.1.1 经典架构回顾 (AlexNet/VGG/ResNet)卷积神经网络Convolutional Neural Networks, CNN的复兴始于 AlexNet 在 ImageNet 竞赛中的突破性表现。Krizhevsky 等人提出的八层架构引入了 ReLU 非线性激活函数 $f(x)\max(0,x)$ 替代传统的 Sigmoid 或 Tanh有效缓解了深层网络的梯度消失问题。局部响应归一化Local Response Normalization, LRN层通过侧抑制机制增强泛化能力$$b_{x,y}^i \frac{a_{x,y}^i}{\left(k \alpha \sum_{j\max(0,i-n/2)}^{\min(N-1,in/2)} (a_{x,y}^j)^2 \right)^\beta}$$Dropout 正则化以概率 $p$ 随机置零神经元输出近似模型集成的贝叶斯平均效果。后续 VGG 网络通过堆叠小尺寸卷积核3×3替代大卷积核在不损失感受野的前提下增加网络深度十六至十九层的架构证明了深度对表征能力的关键作用。残差网络ResNet通过跳跃连接skip connections解决极深网络的退化问题残差块学习恒等映射的残差 $F(x)$ 而非直接映射 $H(x)$$$y F(x, \{W_i\}) x$$当 $F(x) \to 0$ 时网络易于学习恒等映射。残差连接使梯度流通过 shortcut 路径直接反向传播支持超过百层的网络训练。4.1.1.2 现代视觉骨干网络 (ViT/ConvNeXt)Vision TransformerViT将自然语言处理中的 Transformer 架构迁移至计算机视觉将图像分割为固定大小的非重叠 patches $x_p \in \mathbb{R}^{P^2 \cdot C}$经线性投影映射至 $D$ 维嵌入空间。标准 Transformer 编码器通过多头自注意力机制Multi-Head Self-Attention, MHSA捕获全局依赖$$\text{Attention}(Q,K,V) \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$$$$\text{MHSA}(X) \text{Concat}(\text{head}_1, \dots, \text{head}_h)W^O$$其中 $\text{head}_i \text{Attention}(XW_i^Q, XW_i^K, XW_i^V)$。位置嵌入positional embeddings编码空间信息弥补自注意力的置换不变性。ConvNeXt 则对标准 ResNet 进行现代化改造借鉴 Swin Transformer 的设计采用深度可分离卷积、LayerNorm 替代 BatchNorm、GELU 激活函数及大卷积核7×7在纯卷积架构中达到与 Transformer 相当的性能同时保持卷积的平移等变性与计算效率。4.1.2 自监督视觉表征4.1.2.1 对比学习框架 (SimCLR/MoCo)自监督学习通过设计前置任务pretext tasks从数据本身构造监督信号。对比学习框架 SimCLRSimple Contrastive Learning of Representations通过数据增强生成同一图像的两个相关视图 $x_i$ 与 $x_j$经编码器 $f(\cdot)$ 与投影头 $g(\cdot)$ 映射至潜在空间 $z_i, z_j$。归一化温度缩放交叉熵损失NT-Xent最大化正样本对的相似度同时最小化负样本对$$L_{i,j} -\log \frac{\exp(\text{sim}(z_i, z_j)/\tau)}{\sum_{k1}^{2N} \mathbb{1}_{[k \neq i]} \exp(\text{sim}(z_i, z_k)/\tau)}$$其中 $\text{sim}(u,v) u^T v / (\|u\|\|v\|)$ 为余弦相似度$\tau$ 为温度参数。Momentum ContrastMoCo维护动态字典以存储大量负样本通过动量更新编码器参数 $\theta_k$$$\theta_k \leftarrow m\theta_k (1-m)\theta_q$$动量系数 $m \in [0,1)$ 确保字典键的表示一致性支持大容量负样本对比而无需超大批次训练。4.1.2.2 掩码图像建模 (MAE/BEiT)掩码自编码器Masked Autoencoders, MAE采用非对称编码器-解码器架构高比例75%随机掩码图像块patches仅将可见 patches 输入 Vision Transformer 编码器轻量级解码器重建像素级掩码区域。重建目标最小化归一化像素的均方误差$$L \frac{1}{|M|} \sum_{i \in M} \|\tilde{x}_i - x_i\|^2$$其中 $M$ 为掩码集合$\tilde{x}_i$ 为解码器输出。BEiTBidirectional Encoder Representations from Image Transformers将图像视为离散 token 序列通过离散变分自编码器dVAE的码本将图像块量化为视觉 token掩码语言建模目标预测离散视觉 token 而非原始像素bridging 视觉与语言预训练范式的差异。4.2 目标检测与分割4.2.1 两阶段与单阶段检测器4.2.1.1 Faster R-CNN 系列目标检测的两阶段范式由 Faster R-CNN 确立第一阶段区域提议网络Region Proposal Network, RPN在共享卷积特征上滑动小网络预测锚框anchors的二分类前景/背景与边界框回归。RPN 损失函数结合分类交叉熵与平滑 L1 回归损失$$L(\{p_i\}, \{t_i\}) \frac{1}{N_{cls}} \sum_i L_{cls}(p_i, p_i^*) \lambda \frac{1}{N_{reg}} \sum_i p_i^* L_{reg}(t_i, t_i^*)$$其中 $p_i$ 为预测概率$p_i^*$ 为真实标签1 前景 / 0 背景$t_i$ 为边界框偏移量参数化坐标。第二阶段 Fast R-CNN 对候选区域执行 RoI 池化后分类与精细回归。RoIAlign 后续替代 RoI Pooling通过双线性插值消除量化误差保留亚像素精度。4.2.1.2 YOLO 系列演进You Only Look OnceYOLO开创单阶段检测范式将检测重新表述为单次回归问题。网络将输入图像划分为 $S \times S$ 网格每个网格单元预测 $B$ 个边界框及其置信度 $\text{Pr}(\text{Object}) \times \text{IoU}_{\text{pred}}^{\text{truth}}$ 与条件类别概率 $\text{Pr}(\text{Class}_i \mid \text{Object})$。边界框坐标相对于网格单元归一化$$b_x \sigma(t_x) c_x, \quad b_y \sigma(t_y) c_y$$$$b_w p_w e^{t_w}, \quad b_h p_h e^{t_h}$$其中 $c_x, c_y$ 为网格单元左上角坐标$p_w, p_h$ 为先验框尺寸$\sigma(\cdot)$ 为 Sigmoid 函数。YOLOv3 引入多尺度预测与特征金字塔YOLOv4/v5 优化 Bag of FreebiesBoF与 Bag of SpecialsBoS训练技巧YOLOv8 采用 Anchor-Free 设计与解耦头Decoupled Head将分类与回归分支分离引入 Distribution Focal Loss 与 CIoUComplete Intersection over Union损失$$\text{CIoU} \text{IoU} - \frac{\rho^2(b, b^{gt})}{c^2} - \alpha v$$其中 $\rho$ 为中心点欧氏距离$c$ 为最小闭包框对角线长度$v$ 为长宽比一致性度量。4.2.2 实例分割与全景分割4.2.2.1 Mask R-CNN 架构Mask R-CNN 扩展 Faster R-CNN 实现像素级实例分割在边界框回归与分类分支并行添加掩码预测分支。RoIAlign 提取固定尺寸特征后全卷积网络FCN为每个 RoI 预测 $K \times m \times m$ 的二进制掩码$K$ 为类别数$m \times m$ 为空间分辨率。多任务损失函数整合三项$$L L_{cls} L_{box} L_{mask}$$掩码损失 $L_{mask}$ 为逐像素的 Sigmoid 交叉熵支持每个类别独立预测掩码避免类别间竞争。该架构保持检测精度同时实现高精度分割为后续实例分割方法奠定结构基础。4.2.2.2 基于 Transformer 的分割方法DETRDetection Transformer将目标检测视为直接集合预测问题摒弃锚框与 NMS 后处理。Transformer 编码器处理 CNN 特征图解码器通过自注意力与编码器-解码器注意力并行预测 $N$ 个对象查询object queries。匈牙利算法实现预测与真实标签的最优二分匹配$$\hat{\sigma} \arg \min_{\sigma \in S_N} \sum_{i1}^N L_{match}(y_i, \hat{y}_{\sigma(i)})$$其中 $L_{match}$ 结合分类与 GIoUGeneralized Intersection over Union损失。Mask2Former 统一实例分割、语义分割与全景分割采用掩码分类mask classification范式经注意力机制预测的掩码嵌入与像素嵌入点积生成最终掩码多尺度可变形注意力Deformable Attention捕获高分辨率细节$$\text{DeformAttn}(z_q, p_q, x) \sum_{m1}^M W_m \left[ \sum_{k1}^K A_{mqk} \cdot W_m x(p_q \Delta p_{mqk}) \right]$$其中 $p_q$ 为参考点$\Delta p_{mqk}$ 为学习偏移量$A_{mqk}$ 为注意力权重。4.3 三维视觉与几何理解4.3.1 深度估计与立体视觉4.3.1.1 单目深度估计单目深度估计面临固有的尺度模糊性scale ambiguity神经网络学习从单张图像推断深度图 $Z(u,v)$。编码器-解码器架构结合跳跃连接融合多尺度特征深度估计损失函数融合尺度不变对数误差、梯度平滑与法向一致性约束$$L \alpha \sqrt{\frac{1}{n} \sum_i d_i^2 - \frac{\lambda}{n^2} (\sum_i d_i)^2} \beta \frac{1}{n} \sum_i (|\nabla_x d_i| |\nabla_y d_i|) \gamma \frac{1}{n} \sum_i (1 - n_i^T \hat{n}_i)$$其中 $d_i \log Z_i - \log \hat{Z}_i$ 为对数深度差异。基于 Transformer 的方法如 DepthFormer利用全局注意力捕获长程几何关系结合卷积局部性保持边缘精度。4.3.1.2 立体匹配算法立体视觉通过双目视差计算深度视差 $d$ 与深度 $Z$ 满足$$Z \frac{f \cdot B}{d}$$其中 $f$ 为焦距$B$ 为基线距离。半全局匹配Semi-Global Matching, SGM通过像素级互信息成本与路径聚合优化能量函数$$E(D) \sum_p C(p, D_p) \sum_{q \in N_p} P_1 \mathbb{1}[|D_p - D_q|1] \sum_{q \in N_p} P_2 \mathbb{1}[|D_p - D_q|1]$$第一项为数据项像素差异度第二、三项为平滑项惩罚小与大视差跳变。深度学习立体匹配网络如 PSMNet通过 3D 卷积对代价体cost volume正则化结合堆叠沙漏stacked hourglass结构细化视差图。4.3.2 点云处理与 3D 检测4.3.2.1 PointNet/PointNetPointNet 直接处理原始点云数据 $\{x_1, x_2, \dots, x_n\}$通过对称函数symmetric function解决点云无序性permutation invariance。共享多层感知机MLP独立处理每个点最大池化max pooling聚合全局特征$$f(\{x_1, \dots, x_n\}) \approx g(\max_{i1,\dots,n} \{h(x_i)\})$$其中 $h$ 与 $g$ 为 MLP 近似函数。T-Net 学习输入与特征空间变换矩阵保证刚体变换不变性。PointNet 引入层次化特征学习采样层sampling与分组层grouping构建点集嵌套结构集合抽象set abstraction层聚合局部特征$$f(S) \max_{i1,\dots,n} \{ \text{MLP}(p_i - \bar{p} \oplus f_i) \}$$其中 $S$ 为局部点集$\bar{p}$ 为局部质心$\oplus$ 为拼接操作。4.3.2.2 基于体素和图的方法VoxelNet 将点云量化为规则 3D 体素网格体素特征编码Voxel Feature Encoding, VFE层将非空体素内点特征聚合为固定维表示$$V_{ijk} \frac{1}{N_{ijk}} \sum_{p \in P_{ijk}} [x_p, y_p, z_p, r_p, f_p]^T$$3D 稀疏卷积提取体素特征后压缩至鸟瞰图BEV执行 2D 检测。Point-GNN 将点云建模为图 $G(V,E)$顶点为点特征边由 k 近邻k-NN或半径邻域定义。图神经网络通过邻域聚合更新顶点特征$$h_i^{(l1)} \gamma^{(l)} \left( h_i^{(l)}, \square_{j \in N(i)} \phi^{(l)} (h_i^{(l)}, h_j^{(l)}, e_{ij}) \right)$$其中 $\square$ 为置换不变聚合算子max/mean/sum$\phi$ 与 $\gamma$ 为 MLP。Point-GNN 引入自动对齐机制auto-registration与迭代箱合并iterative box merging提升定位精度。4.4 视觉基础模型4.4.1 SAM 与交互式分割4.4.1.1 提示编码与掩码解码Segment Anything ModelSAM构建可提示promptable的分割系统接受稀疏提示点、框、文本与密集提示掩码。图像编码器Image Encoder基于 Vision Transformer 提取图像嵌入提示编码器Prompt Encoder将稀疏提示映射为位置编码与类型嵌入密集提示经卷积下采样。轻量级掩码解码器Mask Decoder通过双向 Transformer2 个块融合图像与提示嵌入预测三个掩码输出整体、部分、子部分以处理歧义性$$F_{\text{fused}} \text{Transformer}(F_{\text{image}}, F_{\text{prompt}})$$$$M_i \text{MLP}(F_{\text{fused}}) \odot F_{\text{image}}, \quad i \in \{1,2,3\}$$动态聚焦dynamic focusing机制通过迭代细化支持高分辨率预测。4.4.1.2 零样本迁移能力SAM 在海量多样化数据SA-1B 数据集1100 万张图像10 亿掩码上训练获得强泛化能力无需针对特定域微调即可执行边缘检测、区域提议、实例分割与文本到掩码通过 CLIP 文本编码器扩展。提示工程使 SAM 适应多样化下游任务如通过前景/背景点提示实现交互式分割或结合目标检测器框提示实现自动实例分割。组合泛化能力支持未见对象类别与复杂场景的准确分割体现基础模型的涌现特性。4.4.2 DINO 与自监督特征4.4.2.1 知识蒸馏框架DINOself-DIstillation with NO labels通过自蒸馏学习视觉 Transformer 特征无需标签数据。学生网络Student与动量教师网络Teacher架构相同教师参数 $\theta_t$ 为学生参数 $\theta_s$ 的指数移动平均$$\theta_t \leftarrow \lambda \theta_t (1-\lambda) \theta_s$$输入图像经不同随机裁剪与增强生成全局与局部视图学生处理所有视图教师仅处理全局视图以避免信息泄露。蒸馏目标最小化学生输出 $P_s$ 与教师中心化输出 $P_t$ 的交叉熵$$\min_{\theta_s} E_{x_1, x_2} [ H(P_{\theta_t}(x_1), P_{\theta_s}(x_2)) ]$$中心化处理centering与锐化sharpening操作防止崩溃解collapse solutionsSinkhorn-Knopp 算法实现批次级标签分配。4.4.2.2 视觉 Transformer 的涌现特性DINO 训练的 Vision Transformer 展现显著涌现特性。自注意力图可视化揭示最后一层注意力聚焦于语义对象边界与部分无需监督信号即学习对象分割emergent segmentation。特征空间呈现语义聚类结构k-NN 分类器在 ImageNet 上达到 78.3% top-1 精度证明自监督学习获得判别性表示。跨层特征分析表明浅层捕获纹理与边缘深层聚合语义对象层次化表征与卷积网络类似但全局感受野增强长程依赖建模。自注意力头的专业化specialization现象特定头关注位置信息、重复模式或语义类别为理解视觉 Transformer 内部机制提供窗口。这些特性使 DINO 特征适用于零样本分类、图像检索与密集预测任务的预训练初始化。

更多文章