别再搞混了！PyTorch里CrossEntropyLoss和NLLLoss到底该用哪个？（附代码对比）

张开发

• 2026/4/14 8:44:48 • 15 分钟阅读

分享文章

别再搞混了！PyTorch里CrossEntropyLoss和NLLLoss到底该用哪个？（附代码对比）

PyTorch损失函数选择指南CrossEntropyLoss与NLLLoss的深度解析在深度学习模型训练过程中损失函数的选择直接影响着模型的收敛速度和最终性能。PyTorch作为当前最流行的深度学习框架之一提供了多种损失函数实现其中nn.CrossEntropyLoss和nn.NLLLoss是最常用的分类任务损失函数。本文将深入剖析两者的区别、适用场景和最佳实践帮助开发者避免常见误区。1. 理解损失函数的核心差异CrossEntropyLoss和NLLLoss在数学本质上密切相关但在实现和使用方式上存在关键区别。理解这些差异是正确选择的基础。**交叉熵损失(CrossEntropyLoss)**是分类任务中最常用的损失函数它实际上是softmax激活函数与负对数似然损失(NLLLoss)的组合。其数学表达式为$$ L -\frac{1}{N}\sum_{i1}^N \log\left(\frac{\exp(x_{i,y_i})}{\sum_{j1}^C \exp(x_{i,j})}\right) $$其中$N$是批量大小$C$是类别数量$x_{i,j}$是第$i$个样本在第$j$个类别上的原始输出(logits)$y_i$是第$i$个样本的真实类别标签**负对数似然损失(NLLLoss)**则更为基础它假设输入已经是log-probabilities(对数概率)其公式为$$ L -\frac{1}{N}\sum_{i1}^N x_{i,y_i} $$两者的关键区别在于输入要求特性CrossEntropyLossNLLLoss输入要求原始logits(未归一化)log-probabilities(已取对数)内部处理自动应用softmax不进行任何归一化计算效率较高(单步完成)较低(需前置处理)典型使用场景大多数分类任务需要自定义概率处理的情况import torch import torch.nn as nn import torch.nn.functional as F # 示例输入 logits torch.tensor([[2.0, 1.0, 0.1], [1.0, 3.0, 0.2]]) targets torch.tensor([0, 1]) # CrossEntropyLoss使用 ce_loss nn.CrossEntropyLoss() loss_ce ce_loss(logits, targets) # NLLLoss使用(需要前置处理) log_probs F.log_softmax(logits, dim1) nll_loss nn.NLLLoss() loss_nll nll_loss(log_probs, targets) print(fCrossEntropyLoss: {loss_ce.item()}) print(fNLLLoss: {loss_nll.item()})2. 何时选择CrossEntropyLossCrossEntropyLoss是大多数分类任务的首选特别是在以下场景中表现最佳标准分类任务当你的模型输出是未经处理的logits时CrossEntropyLoss是最直接的选择。它内部集成了softmax操作避免了数值不稳定性问题。类别不平衡问题通过weight参数可以为不同类别指定权重这在医学图像分析等类别分布不均衡的场景中特别有用。# 类别权重示例 weights torch.tensor([0.1, 0.8, 0.1]) # 强调中间类别 ce_weighted nn.CrossEntropyLoss(weightweights) loss_weighted ce_weighted(logits, targets)标签平滑(Label Smoothing)这是一种正则化技术可以防止模型对训练标签过度自信。PyTorch 1.10版本直接支持这一功能。# 标签平滑示例 ce_smooth nn.CrossEntropyLoss(label_smoothing0.1) loss_smooth ce_smooth(logits, targets)性能考量CrossEntropyLoss由于内部优化通常比手动组合softmax NLLLoss更高效特别是在大规模分类任务中。提示在使用CrossEntropyLoss时确保目标标签是类别的索引(0到C-1)而不是one-hot编码除非你特别需要使用概率目标。3. 何时选择NLLLoss虽然CrossEntropyLoss更为常用但NLLLoss在某些特殊场景下不可替代自定义概率处理当你需要对模型的输出进行特殊处理时如使用温度缩放(Temperature Scaling)、自定义归一化等需要先获得log-probabilities。# 温度缩放示例 temperature 2.0 scaled_logits logits / temperature log_probs F.log_softmax(scaled_logits, dim1) loss_nll nll_loss(log_probs, targets)非标准概率分布当你使用的不是标准的softmax归一化而是其他概率分布如sparsemax时需要显式计算log-probabilities。多标签分类虽然不完全相同但在某些多标签分类实现中可能需要组合NLLLoss与其他处理。预计算log-probabilities当log-probabilities来自其他来源(如概率模型输出)时直接使用NLLLoss更为方便。# 使用预计算log-probabilities的示例 pretrained_log_probs torch.tensor([[-0.5, -1.5, -2.5], [-1.5, -0.5, -2.5]]) loss_pretrained nll_loss(pretrained_log_probs, targets)4. 常见错误与调试技巧即使是经验丰富的开发者在使用这两种损失函数时也容易犯一些常见错误。下面是一些典型问题及其解决方案错误1对CrossEntropyLoss输入probabilities而非logits# 错误示例 probs F.softmax(logits, dim1) # 已经softmax处理 loss ce_loss(probs, targets) # 错误需要logits错误2对NLLLoss输入logits而非log-probabilities# 错误示例 loss nll_loss(logits, targets) # 错误需要log_softmax输出错误3维度不匹配确保输入张量的维度正确logits/log-probs: (batch_size, num_classes)targets: (batch_size,)调试技巧检查输入范围logits通常范围在(-∞, ∞)而log-probs应为负值验证损失值对随机初始化模型初始损失应接近-ln(1/C)其中C是类别数梯度检查确保损失函数不会产生NaN或异常大的梯度# 调试示例 print(输入范围检查:) print(flogits范围: {logits.min().item()} ~ {logits.max().item()}) print(flog_probs范围: {log_probs.min().item()} ~ {log_probs.max().item()}) # 理论初始损失验证 num_classes logits.size(1) expected_init_loss -torch.log(torch.tensor(1.0/num_classes)) print(f理论初始损失: {expected_init_loss.item()}) print(f实际初始损失: {loss_ce.item()})5. 高级应用与性能优化了解两种损失函数的高级用法可以进一步提升模型性能混合精度训练在使用AMP(自动混合精度)时CrossEntropyLoss有专门的优化实现# 混合精度示例 scaler torch.cuda.amp.GradScaler() with torch.cuda.amp.autocast(): outputs model(inputs) loss ce_loss(outputs, targets) scaler.scale(loss).backward() scaler.step(optimizer) scaler.update()自定义损失组合通过组合NLLLoss与其他损失可以实现复杂目标# 自定义损失组合示例 def custom_loss(logits, targets, alpha0.5): log_probs F.log_softmax(logits, dim1) nll nll_loss(log_probs, targets) penalty torch.mean(torch.sum(torch.exp(log_probs), dim1)) # 概率质量惩罚 return alpha * nll (1-alpha) * penalty分布式训练优化在大规模分布式训练中CrossEntropyLoss的实现已经优化了通信效率# 分布式训练示例 model nn.parallel.DistributedDataParallel(model) outputs model(inputs) loss ce_loss(outputs, targets) loss.backward()内存效率对于超多类别分类(如语言模型)可以考虑内存优化的替代实现# 内存高效实现示例 class MemoryEfficientCrossEntropy(nn.Module): def __init__(self): super().__init__() def forward(self, logits, targets): return -torch.mean(logits[range(len(targets)), targets] - torch.logsumexp(logits, dim1))6. 决策流程图与最佳实践为了帮助开发者快速做出选择以下是损失函数选择的决策流程模型输出是否为原始logits是 → 考虑CrossEntropyLoss否 → 进入问题2是否需要自定义概率处理是 → 使用log_softmax NLLLoss否 → 进入问题3是否有特殊需求(如标签平滑、类别权重)是 →CrossEntropyLoss支持这些功能否 → 任意选择优先CrossEntropyLoss最佳实践建议默认首选CrossEntropyLoss除非有明确理由使用NLLLoss在模型验证阶段检查损失值是否符合预期对于新任务先在小数据集上验证损失函数行为注意输入张量的维度和类型要求利用PyTorch内置功能(如权重、标签平滑)而非手动实现# 完整的最佳实践示例 def train_model(model, train_loader, optimizer, num_classes, device): model.train() criterion nn.CrossEntropyLoss(label_smoothing0.1) # 带标签平滑 for inputs, targets in train_loader: inputs, targets inputs.to(device), targets.to(device) optimizer.zero_grad() # 混合精度训练 with torch.cuda.amp.autocast(): outputs model(inputs) loss criterion(outputs, targets) loss.backward() optimizer.step() # 记录和监控 if step % 100 0: probs F.softmax(outputs.detach(), dim1) acc (probs.argmax(dim1) targets).float().mean() print(fLoss: {loss.item():.4f}, Accuracy: {acc.item():.4f})在实际项目中我发现正确选择损失函数可以显著减少调试时间。曾经在一个多标签分类任务中由于错误地使用了CrossEntropyLoss而没意识到它隐含的单标签假设导致模型性能始终不理想。后来切换到适当的损失函数组合后准确率提升了15%。这个经验告诉我深入理解损失函数的数学本质和框架实现细节往往比盲目尝试各种模型结构更有效。

别再搞混了！PyTorch里CrossEntropyLoss和NLLLoss到底该用哪个？（附代码对比）

最新文章

flux + kubernetes + gitops + Kustomization

别再瞎调参了！用RAGAS给你的LangChain RAG系统做个‘体检’（附完整代码）

pc没有声音怎么回事需要设置系统声音

为什么越来越多人用Hunyuan？轻量翻译模型崛起解析

SmallThinker-3B-Preview多平台部署：Windows WSL2 + macOS Rosetta + Linux原生

SmolVLA代码生成效果评测：对比Claude Code与AI编程助手

推荐文章

龙虾白嫖指南，请查收~勘

AI Agent在金融科技领域的应用实践：风控、投顾与合规

Unity3D动画插件DoTween进阶应用与性能优化指南

超表面贝塞尔光束生成系统代码功能深度解析

【5G系列】深入解析NAS层UAC：Access Identity与Access Category的获取机制

Spring with AI (): 搜索扩展——向量数据库与RAG(下)肺

相关文章

别再死记硬背MIPI状态转换图了！用Python脚本模拟单向/双向Data Lane状态机

HuggingFace模型下载终极优化：Autodl服务器上的国内镜像与断点续传技巧

Python EXE逆向解密深度解析：从加密打包到源码还原的完整流程

基于 Python 与 PyQt5 构建的特斯拉行车记录仪视频播放器

别再搞混了！PyTorch里CrossEntropyLoss和NLLLoss到底该用哪个？（附代码对比）

别再为Linux打印机驱动烦恼：foo2zjs开源驱动彻底解决兼容性问题

分享文章

更多文章

基于 Python 与 PyQt5 构建的特斯拉行车记录仪视频播放器

Python EXE逆向解密深度解析：从加密打包到源码还原的完整流程

HuggingFace模型下载终极优化：Autodl服务器上的国内镜像与断点续传技巧

别再死记硬背MIPI状态转换图了！用Python脚本模拟单向/双向Data Lane状态机