大语言模型并非所有层都必要

张开发
2026/4/19 8:40:44 15 分钟阅读

分享文章

大语言模型并非所有层都必要
大语言模型真的需要所有这些层吗研究发现70%的注意力头和20%的前馈网络可以被剔除而对上下文学习的影响极小这表明大语言模型训练不足。作者Karthik Gopalakrishnan2023年7月9日阅读时间3分钟大语言模型LLM已经存在一段时间了但今年随着ChatGPT的出现它们真正吸引了公众的注意。LLM通常在海量数据上进行预训练最近的变体还额外进行了指令微调并利用强化学习融入人类反馈。这些LLM展现出的一个迷人能力是上下文学习模型仅需遵循与新输入一起提供的几个有时甚至零个优秀示例就能学会执行一项任务。遵循这种学习范式在预训练数据量固定的情况下更大的LLM也被证明比较小的模型更有能力执行更广泛的任务。在提交给本年度计算语言学协会ACL会议的论文中从架构可解释性的角度研究了模型规模对上下文学习的重要性。具体提出的问题是执行上下文学习是否真的需要LLM的所有组件总体的观察结果是似乎只有核心的一小部分注意力头和FFN对上下文学习是重要的这表明OPT-66B以及很可能其他主流LLM都训练不足。这也印证了近期一些质疑在模型规模扩大时保持预训练数据量固定这一做法的研究表明预训练数据量必须与模型本身同步扩展才能达到最优性能。观察研究发布后出现的新版LLM例如那些经过指令微调的模型在此类分析中的表现将会非常有趣。研究领域对话式AI机器学习标签大语言模型 (LLMs)FINISHED更多精彩内容 请关注我的个人公众号 公众号办公AI智能小助手或者 我的个人博客 https://blog.qife122.com/对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号网络安全技术点滴分享

更多文章