别再死记硬背了！用PyTorch/TensorFlow的自动求导理解向量矩阵求导（附代码）

张开发

• 2026/4/16 21:06:01 • 15 分钟阅读

分享文章

别再死记硬背了！用PyTorch/TensorFlow的自动求导理解向量矩阵求导（附代码）

用PyTorch/TensorFlow的自动求导彻底掌握向量矩阵求导在深度学习的世界里向量和矩阵求导是每个从业者必须跨越的一道坎。无论是推导损失函数的梯度还是实现自定义层都离不开对求导规则的深刻理解。但传统的数学手册式讲解往往让人望而生畏——那些抽象的符号和复杂的公式真的能在实际编程中派上用场吗好消息是现代深度学习框架的自动求导机制autograd为我们提供了一条捷径。通过PyTorch和TensorFlow我们可以用代码直观验证各种求导公式将枯燥的数学符号转化为可运行的实验。这不仅让学习过程更加生动还能帮助我们在实践中建立真正的框架思维。1. 自动求导从数学到代码的桥梁自动求导是现代深度学习框架的核心特性之一。与符号求导和数值求导不同自动求导通过在计算图中记录运算过程能够高效准确地计算任意复杂函数的导数。PyTorch和TensorFlow都实现了这一机制让我们可以专注于模型设计而将繁琐的求导工作交给框架。让我们从一个简单的例子开始验证标量对向量的求导。假设有函数import torch x torch.tensor([1.0, 2.0, 3.0], requires_gradTrue) y torch.sum(x ** 2) # y x₁² x₂² x₃² y.backward() print(x.grad) # 输出梯度 [2., 4., 6.]这段代码验证了标量对向量求导的基本公式∂(xᵀx)/∂x 2x。通过.backward()方法PyTorch自动计算了y对x的梯度结果与数学推导完全一致。自动求导的核心优势即时验证可以快速检验推导的公式是否正确维度可视化直接观察梯度结果的形状和数值复杂函数支持适用于任何可微分的计算图2. 向量求导的四种基本类型在深度学习中我们主要会遇到四种基本的求导场景。借助自动求导我们可以为每种类型建立直观理解。2.1 标量对向量求导这是最常见的情况如损失函数对参数的求导。考虑线性回归的例子w torch.randn(3, requires_gradTrue) b torch.randn(1, requires_gradTrue) x_sample torch.tensor([0.5, 1.0, 1.5]) y_true torch.tensor(2.0) y_pred torch.dot(w, x_sample) b loss (y_pred - y_true)**2 loss.backward() print(f∂loss/∂w: {w.grad}) # 2(y_pred-y_true)*x_sample print(f∂loss/∂b: {b.grad}) # 2(y_pred-y_true)2.2 向量对向量求导这种情况出现在多层网络的反向传播中。例如考虑一个简单的变换x torch.randn(3, requires_gradTrue) A torch.randn(2, 3) y A x # y Ax # 计算雅可比矩阵 jacobian torch.zeros(2, 3) for i in range(2): x.grad None y[i].backward(retain_graphTrue) jacobian[i] x.grad print(雅可比矩阵:\n, jacobian) print(理论值:\n, A)2.3 标量对矩阵求导在卷积神经网络中经常遇到这种情况。例如W torch.randn(2, 3, requires_gradTrue) x torch.randn(3) y W x loss y.sum() loss.backward() print(f∂loss/∂W:\n{W.grad})2.4 向量对矩阵求导这种类型在RNN中较为常见。我们可以通过逐元素求导来验证W torch.randn(2, 3, requires_gradTrue) x torch.randn(3) y W x jacobian torch.zeros(2, 2, 3) for i in range(2): W.grad None y[i].backward(retain_graphTrue) jacobian[i] W.grad print(向量对矩阵求导结果:) print(jacobian)3. 核心运算法则的代码验证理解求导的基本法则比记忆具体公式更重要。让我们用代码验证三个核心法则。3.1 线性法则验证线性法则表明求导是线性运算x torch.tensor([1.0, 2.0], requires_gradTrue) y1 x.sum() y2 x.prod() z 3*y1 4*y2 z.backward() print(线性组合的梯度:, x.grad) x.grad None y1.backward() grad_y1 x.grad.clone() x.grad None y2.backward() grad_y2 x.grad.clone() print(验证结果:, 3*grad_y1 4*grad_y2)3.2 乘积法则验证乘积法则在计算图中无处不在x torch.tensor([2.0, 3.0], requires_gradTrue) u x.sum() v x.prod() y u * v y.backward() print(乘积的梯度:, x.grad) # 手动计算验证 x_grad v.detach() * torch.ones_like(x) u.detach() * torch.tensor([x[1], x[0]]) print(理论梯度:, x_grad)3.3 链式法则验证链式法则构成了反向传播的基础x torch.tensor(2.0, requires_gradTrue) y x**2 z torch.sin(y) z.backward() print(复合函数梯度:, x.grad) # 手动验证 print(理论梯度:, 2*x * torch.cos(x**2))4. 实战应用自定义层的梯度实现理解了基本原理后我们来看一个实际案例实现一个自定义的线性层并验证其梯度。class MyLinear(torch.autograd.Function): staticmethod def forward(ctx, input, weight, bias): ctx.save_for_backward(input, weight, bias) return input weight.t() bias staticmethod def backward(ctx, grad_output): input, weight, bias ctx.saved_tensors grad_input grad_output weight grad_weight grad_output.t() input grad_bias grad_output.sum(dim0) return grad_input, grad_weight, grad_bias # 验证自定义层 x torch.randn(1, 3, requires_gradTrue) W torch.randn(2, 3, requires_gradTrue) b torch.randn(2, requires_gradTrue) # 使用自动求导的参考实现 y_ref torch.nn.functional.linear(x, W, b) y_ref.sum().backward() ref_grad_x, ref_grad_W, ref_grad_b x.grad, W.grad, b.grad # 重置梯度 x.grad W.grad b.grad None # 使用自定义实现 my_linear MyLinear.apply y_my my_linear(x, W, b) y_my.sum().backward() my_grad_x, my_grad_W, my_grad_b x.grad, W.grad, b.grad # 比较结果 print(输入梯度是否一致:, torch.allclose(ref_grad_x, my_grad_x)) print(权重梯度是否一致:, torch.allclose(ref_grad_W, my_grad_W)) print(偏置梯度是否一致:, torch.allclose(ref_grad_b, my_grad_b))这个例子展示了如何正确实现一个自定义层的正向和反向传播。通过比较框架内置函数和我们的实现可以验证梯度计算的正确性。5. 常见陷阱与调试技巧即使有了自动求导在实际应用中还是会遇到各种问题。以下是一些常见陷阱及其解决方法维度不匹配问题# 错误示例 x torch.randn(3, requires_gradTrue) y x.sum() # y.backward() # 这会正常工作 y.backward(torch.tensor(1.0)) # 显式传递梯度 # 对于非标量输出需要指定gradient参数 x torch.randn(3, requires_gradTrue) y x * 2 # y.backward() # 会报错 y.backward(torch.ones_like(y)) # 需要指定梯度梯度累积问题x torch.ones(2, requires_gradTrue) for _ in range(3): y x.sum() y.backward() # 梯度会累积 print(x.grad) # 每次会增加 [1,1] # 正确做法是在循环中清零梯度 x.grad.zero_()非连续内存问题x torch.randn(2, 3, requires_gradTrue) y x.t() # 转置操作创建了非连续张量 try: y.sum().backward() # 可能报错 except RuntimeError as e: print(错误:, e) # 解决方案 y x.t().contiguous() y.sum().backward()高阶导数计算x torch.tensor(2.0, requires_gradTrue) y x**3 # 一阶导数 grad1 torch.autograd.grad(y, x, create_graphTrue)[0] print(一阶导数:, grad1) # 3x²12 # 二阶导数 grad2 torch.autograd.grad(grad1, x)[0] print(二阶导数:, grad2) # 6x126. 性能优化技巧当处理大规模矩阵运算时梯度计算可能成为性能瓶颈。以下是一些优化建议批量矩阵运算# 低效实现 W torch.randn(100, 50, requires_gradTrue) x torch.randn(50) loss 0 for i in range(100): loss (W[i] x).sum() loss.backward() # 非常低效 # 高效实现 loss (W x).sum() loss.backward() # 单次矩阵乘法使用detach()减少计算图x torch.randn(100, requires_gradTrue) y x.detach() # 切断计算图 z (x * y).sum() # 只有x需要梯度 z.backward() print(x.grad) # 只有x有梯度梯度检查点技术from torch.utils.checkpoint import checkpoint def expensive_forward(x): # 复杂的计算图 return x ** 4 - 2 * x ** 2 x x torch.randn(10, requires_gradTrue) # 常规方式会保存所有中间结果 # y expensive_forward(x) # 使用检查点技术 y checkpoint(expensive_forward, x) y.sum().backward()7. 从求导到自定义优化器理解了自动求导原理后我们可以实现自己的优化算法。下面是一个简单的带动量的SGD实现class MySGD: def __init__(self, params, lr0.01, momentum0.9): self.params list(params) self.lr lr self.momentum momentum self.velocities [torch.zeros_like(p) for p in self.params] def step(self): with torch.no_grad(): for p, v in zip(self.params, self.velocities): if p.grad is None: continue v self.momentum * v p.grad p - self.lr * v def zero_grad(self): for p in self.params: if p.grad is not None: p.grad.zero_() # 测试自定义优化器 model torch.nn.Linear(10, 1) optimizer MySGD(model.parameters(), lr0.01) x torch.randn(32, 10) y torch.randn(32, 1) loss_fn torch.nn.MSELoss() for _ in range(100): optimizer.zero_grad() pred model(x) loss loss_fn(pred, y) loss.backward() optimizer.step()这个例子展示了如何利用PyTorch的自动求导机制构建自定义优化器。关键在于理解梯度是如何在计算图中传播并应用于参数更新的。

别再死记硬背了！用PyTorch/TensorFlow的自动求导理解向量矩阵求导（附代码）

最新文章

mysql如何查看当前数据库的字符编码_使用SHOW VARIABLES LIKE查看

收藏必备：小白程序员快速入门大模型与多智能体实战指南

能量距离理解

如何快速将OneNote笔记转换为Markdown格式：OneNote Md Exporter完整指南

Rust的#[must_use]属性：标记不应忽略的返回值

解决在Ubuntu系统下使用运行Lucid 相机(HTR003S-001)相应实例出现的依赖库缺失的问题

推荐文章

龙虾白嫖指南，请查收~勘

AI Agent在金融科技领域的应用实践：风控、投顾与合规

Unity3D动画插件DoTween进阶应用与性能优化指南

超表面贝塞尔光束生成系统代码功能深度解析

【5G系列】深入解析NAS层UAC：Access Identity与Access Category的获取机制

Spring with AI (): 搜索扩展——向量数据库与RAG(下)肺

相关文章

别再死记硬背MIPI状态转换图了！用Python脚本模拟单向/双向Data Lane状态机

HuggingFace模型下载终极优化：Autodl服务器上的国内镜像与断点续传技巧

Python EXE逆向解密深度解析：从加密打包到源码还原的完整流程

基于 Python 与 PyQt5 构建的特斯拉行车记录仪视频播放器

别再搞混了！PyTorch里CrossEntropyLoss和NLLLoss到底该用哪个？（附代码对比）

别再为Linux打印机驱动烦恼：foo2zjs开源驱动彻底解决兼容性问题

分享文章

更多文章

5G NR PUCCH HARQ-ACK资源选择详解：从初始接入到专用配置的完整流程

Seata AT模式代理数据源失效剖析：为何RM不写undo_log而global_table却有记录？

终极文档下载解决方案：kill-doc一键下载30+平台文档

如何用立创EDA快速复刻ESP32-S开发板？完整开源工程使用教程

Qt for Android：基于libusb实现CH340x串口通信的高效开发方案

计算机毕业设计：Python水产资源监测与产能分析平台 Flask框架数据分析可视化数据大屏大数据机器学习深度学习（建议收藏）✅

新技能分享OpenAI SDK 智能体（Agentic AI）Tools 工具使用详解：从原理到 WebSearch Agent 实战

行业首个扁线电机平台！巨力自动化助力人形机器人跑出 10m/s

光伏储能并网发电模型：基于电池SOC的工作区间与MPPT及恒功率输出控制策略的研究与实现

实测有效！用MCP协议给Windsurf/Coder省积分：心灵宝石工具保姆级配置教程

【QA】Word数学符号输入技巧：如何在字母上方添加小尖儿（^）

6DD1602-0AE0处理器模块