中南大学与百度联手破解AI“话痨“难题:让大模型学会“言简意赅“

张开发
2026/4/18 1:00:54 15 分钟阅读

分享文章

中南大学与百度联手破解AI“话痨“难题:让大模型学会“言简意赅“
这项由中南大学地球科学与信息物理学院与百度公司联合开展的研究以预印本形式于2026年4月发表论文编号为arXiv:2604.05643。感兴趣的读者可通过该编号在arXiv平台检索到完整论文。你有没有遇到过这样的人每次回答一个简单问题都要先把整个事情从头到尾重新推演一遍把已经确认无误的结论反复核查三四遍然后才给出答案这种习惯在人类社交场合只是让人略感烦躁但如果是一个每天要处理数以百万计请求的AI推理系统这种啰嗦病就会造成巨大的计算资源浪费实实在在地消耗着电力和金钱。这正是当今最先进AI推理模型普遍面临的困境。以OpenAI的o1和DeepSeek的R1为代表的新一代推理大模型通过让AI在给出答案之前进行大量的内心独白式推理过程在数学、编程和逻辑推理等复杂任务上取得了令人瞩目的成绩。这种让AI多想想再说话的策略确实有效但也带来了一个棘手的副作用——模型经常产生大量对最终答案毫无贡献的冗余推理内容就像一个学生在草稿纸上把同一道题目的验算做了五六遍却没有任何新发现。中南大学与百度的研究团队发现这种过度思考的根源并非AI天生爱啰嗦而是训练机制造成的。当用强化学习训练这些模型时奖励信号来得很稀疏、很滞后——模型只有在最终答案出来后才知道自己做得好不好就像一个厨师只有在顾客吃完饭结账时才知道菜好不好吃。这种情况下模型为了保险起见养成了反复检查、重复验证的习惯。研究团队把这种冗余分为两类典型模式并为此设计了一套精妙的外科手术式裁剪方案在将推理过程平均缩短42%的同时还保持甚至略微提升了答题准确率。一、AI推理的啰嗦病究竟长什么样要理解这项研究首先需要弄清楚AI推理模型到底是如何工作的。当你向这类模型提问时它不会直接给出答案而是先生成一大段推理链——也就是一步步的思考过程就像你在草稿纸上演算数学题。这种先想清楚再说话的方式让AI在处理复杂问题时表现大幅提升。然而研究团队仔细分析了这些推理链之后发现其中充斥着两种典型的无效劳动。第一种叫做无差别反思。这就好比一个学生在解数学题时每算完一个加法都要停下来确认一下1加1等于2没错吧。模型对每一个推理步骤不管这个步骤是否简单明了都要进行一轮检查确认即便这些检查完全没有发现任何问题也没有推动解题向前进展。第二种叫做重复反思。这种情况更加浪费模型明明已经在推理过程中间得出了正确答案却还要继续生成大量内容把已经确认过的结论再验证一遍、两遍、甚至三遍。就像一个侦探已经锁定了凶手却还要把所有的嫌疑人重新排查一遍才肯结案。这两种冗余反思有一个共同的特点它们都没有为最终答案带来任何新的有用信息纯粹是在消耗计算资源和时间。二、把推理链变成一张思维地图为了精准识别并切除这两种冗余研究团队提出了一个颇为巧妙的解决思路既然推理链中的各个步骤之间存在复杂的依赖关系何不把它从一条直线变成一张网络图具体来说他们把AI的推理过程比作建造一座建筑。每一个推理步骤就是一块砖有些砖是承重砖——后面的结构必须依赖它有些砖只是装饰砖——去掉它对整体结构没有影响。传统的分析方法是沿着时间线从头到尾扫一遍很难判断哪块砖是否真正必要。但如果把所有砖块之间的依赖关系都画出来形成一张清晰的网络图哪些砖块可以安全去除就一目了然了。在实际操作中研究团队首先用一些特殊的关键词把长长的推理链切分成若干片段这些关键词包括等等、或者、让我再想想、嗯之类的词语——这些词通常标志着推理转向了一个新的思考方向。随后他们用另一个语言模型具体是阿里云的qwen-turbo来逐步分析每个片段把它们整理成一张有向无环图。在这张图中每个节点代表一个抽象的推理单元节点之间的连线代表某个步骤依赖于另一个步骤的关系。每个节点还会被标注为两种类型之一要么是进展节点意味着这个步骤推动了解题向前迈进产生了后续步骤会用到的新结论要么是审查节点意味着这个步骤只是在检查、重申或回顾已有的内容并没有带来新的推进。这就相当于把一篇杂乱无章的侦探笔记整理成了一张清晰的案情分析图每个线索都标注了这个线索是否直接指向破案。三、两把手术刀精准切除冗余有了这张思维地图研究团队设计了两种对应不同冗余类型的裁剪策略就像两把不同用途的手术刀。第一把手术刀针对无差别反思采用的是分支级别裁剪。在思维地图中一个节点的子孙后代数量反映了它对整个推理过程的影响力——一个关键的推理步骤通常会派生出大量后续步骤而一个可有可无的检查步骤往往只能派生出寥寥无几的后续节点形成一个细小的侧支很快就走到了尽头。研究团队设定了一个阈值如果一个审查节点的后代数量少于2个就认为它是一个对整体推理贡献微乎其微的无效侧支可以安全删除。这就好比在一棵大树上只要某根枝杈上长的叶子极少就可以放心地把它修剪掉不会影响树的整体健康。第二把手术刀针对重复反思采用的是深度级别裁剪。在思维地图中每个节点都有一个深度值代表它在整个推理过程中所处的位置——越靠前的步骤深度越小越靠后的步骤深度越大。研究团队发现出现在推理过程后期的审查节点往往对应着模型在已经得出正确答案之后还在反复验证的行为。因此他们设定如果一个审查节点的相对深度超过整个推理链的90%也就是出现在推理的最后10%阶段就认为它是一个多余的重复验证将其删除。就像一部电影已经拍摄到了圆满结局导演却还要再拍几个确认男主角真的幸福了的画面——这些画面对故事没有任何新贡献只是在拉长片长。裁剪完成之后研究团队再把剩余的有效节点重新串联成一条新的线性推理链用于后续的模型训练。在所有实验中这两个阈值分别固定设置为k2和m0.9没有针对不同数据集进行特别调整。四、三阶段训练让模型彻底学会精简表达仅仅裁剪训练数据还不够研究团队设计了一套三阶段的训练流程让模型在推理时从根本上改变行为习惯而不只是被动接受更短的训练样本。第一阶段是冷启动监督微调。研究团队用前面裁剪好的精简推理链对模型进行有监督的微调训练——这相当于给模型提供了一批示范答卷让它学会用更简洁的方式思考和表达。这个阶段的作用是给模型建立一个基本的行为倾向遇到问题直接奔着解决方案走不要无谓地绕弯子。技术上训练目标是标准的预测下一个词损失函数让模型学习如何逐词生成这些精简的推理过程。第二阶段是偏好优化采用了一种叫做DPO直接偏好优化的技术。可以把这个阶段理解为对比教学。研究团队让第一阶段训练好的模型对同一批问题各自生成多个答案然后计算每个答案的冗余分数——这个分数综合考虑了答案中审查节点占所有节点的比例以及答案的长度与同题目平均长度的比值。在所有答对题目的答案中冗余分数低的被选为好答案冗余分数高的被选为差答案然后用DPO算法训练模型去提高好答案的生成概率、降低差答案的生成概率。这就像一个学生在练习写作文老师把他写的多篇作文拿来对比告诉他这篇简洁有力以后多往这个方向写那篇啰里啰嗦要有意识地避免。第三阶段是带长度惩罚的GRPO强化学习。这是整个训练流程的最后一关也是最精细的一关。在这个阶段模型通过不断地尝试——生成答案、获得奖励、调整策略——来进一步优化自己的行为。奖励机制的设计颇为讲究首先判断答案是否正确答错了得0分答对了才有资格拿到奖励然后在答对的前提下对那些比同批次最短正确答案明显更长的答案施加惩罚——长得越多罚得越重但如果只是稍微长一点点在一个容忍范围内则几乎不受惩罚。这种设计的妙处在于它不鼓励模型为了省事而随意缩短推理因为答错了没有奖励而是鼓励模型在保证答对的前提下尽可能精简。就像一场演讲比赛规则是在把道理讲清楚的前提下越简短越得分但如果没讲清楚再短也是零分。五、实验结果42%的减负准确率不降反升研究团队在五个数学推理基准测试上对这套方法进行了评估涵盖了从中等难度到奥林匹克级别的各类数学题包括AIME242024年美国数学邀请赛、AIME252025年版本、AMC232023年美国数学竞赛、MATH500一个500道题的数学题库子集以及OlympiadBench奥林匹克级别双语数学题集。每道题目各生成10个解答来评估计算平均准确率和平均生成词元数词元可以粗略理解为文字量。在7B参数版本的DeepSeek-R1-Distill-Qwen模型上原始模型平均推理长度为8134个词元平均准确率为59.72%。经过这套方法训练后平均推理长度降至4660个词元降幅达42.7%而平均准确率反而微升至60.95%。在具体的难题上效果更为突出AIME25准确率从29.00%升至31.67%推理长度从12779降至6977OlympiadBench准确率从56.77%升至59.85%推理长度从5252降至3786。在1.5B参数的更小版本模型上同样取得了类似的成果平均推理长度从7442词元降至4762词元降幅约36%平均准确率从46.68%升至49.91%AMC23准确率从63.12%跃升至69.38%MATH500准确率从72.65%升至80.40%。与其他对比方法相比这套方案的优势也相当明显。O1-Pruner和TokenSkip等基于长度控制的方法虽然也能缩短推理长度但准确率下降得比较厉害。EfficientReasoning和AdaptThink等方法在某些场景下能达到更短的推理长度但准确率方面略逊一筹。研究团队的方案在准确率和效率的综合平衡上表现最优。六、裁剪会不会误伤关键推理任何一种裁剪方案都必须回答一个核心问题在删除废话的同时会不会把真正有用的推理步骤也一并删掉研究团队为此专门设计了一个对比实验来验证裁剪的手术精准度。他们从训练集中随机抽取1000个样本为每个样本准备了三种不同的推理链版本完整版原始、未经任何处理的推理链、图裁剪版经过他们方法处理后的精简推理链和长度截断版直接从头截断使其长度与图裁剪版相同。然后让DeepSeek-R1-Distill-Qwen-7B以这三种不同的推理链为参考各自生成8个答案评估准确率和一致性8个答案中答案相同的比例反映模型的稳定可靠程度。结果相当有说服力。完整推理链的准确率为98.95%一致性为99.60%接近满分图裁剪版的准确率降至93.70%一致性为90.69%依然保持在相当高的水准而长度截断版则直接崩塌至准确率73.60%、一致性69.10%。这意味着简单粗暴地把推理链从头截断会破坏推理的逻辑连贯性导致模型经常得出错误或不稳定的答案而图结构裁剪则能在大幅缩短长度的同时保留推理所必需的核心逻辑骨架。七、训练之后模型的说话习惯发生了哪些变化除了准确率和长度这两个核心指标研究团队还仔细观察了训练前后模型在行为细节上的变化结果颇为有趣。从推理长度的分布来看训练后的模型生成的推理链整体明显变短原来那条延伸到右侧远处的长尾巴代表极长的推理链被大幅压缩再也很少出现特别冗长的情况。从特定词汇的使用频率来看等等、但是、嗯、也许、检查这类典型的反思性词汇在训练后明显减少而因此这类表示推进和得出结论的连接词则显著增多。这表明训练后的模型确实养成了一种更直接、更果断的推理风格——减少了停下来怀疑自己的行为增加了顺着逻辑往前走的行为。从数据集统计来看图裁剪将平均每条推理链的节点数从27.8个降至15.6个其中反思类节点从平均16.8个大幅降至4.5个平均词元数从6468降至4439整个数据处理过程的总花费仅约20美元成本相当低廉。八、逐步叠加的效果验证研究团队还通过一个逐步叠加的消融实验验证了三个训练阶段各自的贡献。从原始基础模型出发依次加入SFT、DPO和GRPO观察每个阶段对准确率和推理长度的影响。实验结果清晰地显示每个阶段都有其独特贡献SFT阶段主要建立了推理长度的压缩基础模型学会了用更短的方式表达DPO阶段进一步强化了对冗余的抑制在长度控制的同时维护了准确率GRPO阶段则通过奖励机制的精细调节在准确率和效率之间找到了更好的平衡点。三个阶段的配合相辅相成缺少任何一个环节最终效果都会打折扣。在强化学习的训练曲线上可以看到奖励分数总体呈上升趋势尽管过程中有明显波动——这是强化学习的正常现象与此同时生成的响应长度并非单调递减而是在奖励提升的过程中保持相对稳定甚至略有波动说明模型学到的并非简单地少说话而是更高效地表达。归根结底这项研究做了一件看似简单却颇有价值的事它证明了AI推理模型的啰嗦并非不可避免通过对推理过程进行结构化分析和精准裁剪完全可以在不损失甚至提升答题质量的前提下大幅减少无谓的计算开销。对于普通用户来说这意味着AI问答的响应速度可能更快、使用成本可能更低对于AI研究领域而言这提示了一个值得深入探索的方向——与其盲目地让模型想得更多不如让模型想得更准。当然研究团队也坦诚地指出了这套方法的局限性。构建推理图需要借助另一个较强的语言模型来辅助分析这增加了数据处理的前期成本和复杂度。进展节点和审查节点的划分是一种粗粒度的标注方式可能无法捕捉到推理过程中一些更细腻的语义差别。此外目前所有实验都在数学推理任务上进行这套方法能否无缝迁移到开放性问答、创意写作或代码生成等更多样化的任务上还有待进一步验证。有兴趣深入了解这项研究的读者可以通过论文编号arXiv:2604.05643在arXiv平台查阅完整的论文原文。QAQ1AI推理模型的过度思考是怎么产生的AAI推理模型的过度思考主要源于强化学习的训练机制。在训练时模型只有在最终答案出来后才能收到奖励信号这种奖励稀疏、滞后的特点导致模型为了保险养成了反复检查、重复验证的习惯产生大量对最终答案没有实质贡献的推理内容。Q2图裁剪方法和直接截断推理链有什么本质区别A两者的核心差异在于是否保留了推理的逻辑骨架。直接截断会破坏推理的连贯性导致准确率从约99%骤降至73.6%。而图裁剪是先把推理链转化为一张依赖关系图识别哪些步骤对整体推理有贡献、哪些是无效冗余再精准删除冗余部分因此能在大幅缩短长度的同时将准确率维持在93.7%以上。Q3这套方法在实际使用中的成本高不高A整体成本相当低廉。研究团队处理包含3335条训练样本的数据集通过调用外部语言模型构建推理图的总花费仅约20美元。此外整套训练流程在单个计算节点的4块NVIDIA A800显卡上完成对于研究机构而言硬件门槛并不高。最终效果是推理词元数减少约42%长期使用可显著降低推理服务的运营成本。

更多文章