【Hung-yi Lee】《Introduction to Generative Artificial Intelligence》(8)

张开发
2026/4/15 6:07:42 15 分钟阅读

分享文章

【Hung-yi Lee】《Introduction to Generative Artificial Intelligence》(8)
Introduction to Generative AI 2024 Spring文章目录第13講淺談大型語言模型相關的安全性議題 (上)24.05.10大型语言模型还是会讲错话怎么办大型语言模型会不会自带偏见这句话是不是大型语言模型讲的参考第13講淺談大型語言模型相關的安全性議題 (上)24.05.10大型语言模型的各种安全性议题大型语言模型还是会讲错话怎么办hallucination幻觉Q请推荐有关大型语言模型安全性的综述论文AXXXXeg回答的第一篇文章在 google 中搜索文章是不存在的不要把 LLM 当作搜索引擎来用我们可以亡羊补牢确认没有问题再给人看或者给人看的时候加一些提示和警告对答案所有怀疑可以按红色标注的 google 图标对答案进行事实查核绿色的底表示网络上找得到相关的资讯红色的底表示网络上找不到相关的资讯不是绝对的事实只是网络上找得到相关的资讯来背书事实查核的一些方法FactScoreFacTool上图展示了大规模语言模型LLM事实性验证Factuality Evaluation的标准流程通常是FacTool或类似框架如FactScore的核心逻辑。它描述了如何自动化的检测 LLM 生成的内容是否包含“一本正经胡说八道”的幻觉Hallucination。核心流程1Claim Extraction原子断言提取输入LLM 生成的一段完整回答。动作将长句子拆解为多个独立的、可验证的事实性陈述Claims。示例回答说“Jack Dorsey 是 CEO”且“他在 2006 年创立了 Twitter”。提取后变成两条独立的 Claims(1) 关于职位(2) 关于创立年份。2Query Generation查询生成动作针对每一条 Claim生成用于搜索引擎或知识库检索的查询语句Queries。目的为了去外部世界如 Google Search、Wikipedia寻找证据。图中示例针对“CEO”这个点生成了“谁是现在的 Twitter CEO”等问题。3Evidence Retrieval证据检索 - 对应图中 Google 图标处的 ???动作利用搜索引擎获取即时的、真实世界的信息作为证据Evidence。图中冲突这里是关键。检索到的证据显示“Linda Yaccarino 将成为 CEO”而 Claims 里说是“Jack Dorsey”。这种信息冲突是评分的基础。4Scoring事实性评分 - 最下方的 Scores 框根据证据对 Claims 进行比对得出两个层面的分数Claim-level Factuality断言级事实性每一条 Claim 的对错。图中显示[ 0 , 1 , . . . ] [0, 1, ...][0,1,...]表示第一条错0第二条对1。Response-level Factuality回答级事实性综合所有断言的最终得分。图中给出了0 00说明由于关键信息错误整个回答被判定为不可信。关于 FacTool 和 FactScore 的补充FacTool是一个通用的检查框架。它不仅能查知识性错误如上图还能查代码错误通过执行环境、数学错误通过计算引擎和科学断言。FactScore更专注于长文本Long-form Generation。它的逻辑是计算“每句话中包含的事实密度”。如果 LLM 写了一大堆但其中只有 10% 的句子是符合检索证据的那么 FactScore 就会很低。上图本质上是一个基于检索增强的验证系统RAG-based Verification。它解决的问题是LLM 的训练数据有截止日期如你提到的 Jack Dorsey 早已不是 CEO通过这种“提取 - 搜索 - 比对 - 打分”的链路可以自动识别出 LLM 响应中的时效性错误或事实性错误。生成的每句话可能都搜得到有背书但可能合在一起是混乱的错误的eg上面介绍把歌手李宏毅和教授李宏毅混淆了如何规避上述问题呢可以参考D-FActScore1FActScore (Factuality Score)由华盛顿大学等机构在 2023 年提出。核心理念将长文本拆解为多个原子事实Atoms然后分别验证每个原子事实的正确性。计算方式F A c t S c o r e 正确的原子事实数量 总原子事实数量 FActScore \frac{\text{正确的原子事实数量}}{\text{总原子事实数量}}FActScore总原子事实数量正确的原子事实数量​局限性知识滞后依赖的参考知识库如维基百科镜像是静态的无法处理即时发生的新闻。粒度死板对所有事实一视同仁无法区分“核心事实”和“琐碎细节”。2D-FActScore (Dynamic FActScore)这是针对 FActScore 的痛点进行的动态Dynamic升级版本。核心改进动态检索Dynamic Retrieval实时性D-FActScore 引入了实时搜索引擎如 Google Search。它不再只翻阅过时的百科而是去抓取最新的网页内容作为证据。核心改进重要性加权Importance Weighting它引入了“信息增益”的概念。并非所有原子事实都同等重要。例如“爱因斯坦是物理学家”和“爱因斯坦提出了相对论”后者在评分中的权重会更高。核心改进争议性处理动态系统能识别出具有争议性或随时间变化的事实例如“谁是推特 CEO”并根据最新的证据链给出更有说服力的判断。3两者的联系与区别联系底层逻辑一致两者都遵循“拆解原子事实 - 寻找证据 - 判断对错 - 综合评分”的四步走流水线。目标一致都是为了量化 LLM 的“幻觉”程度特别是针对人物传记、技术文档等知识密集型任务。区别总结表特性FActScoreD-FActScore知识源静态知识库如 Wikipedia Dump动态互联网实时搜索时效性差无法应对最新事件强支持即时事实校验事实权重等权处理所有事实分值相同动态权重核心事实分值更高计算开销相对较低较高需多次调用搜索 API 和 LLM 评估适用场景验证通用历史知识、百科常识验证新闻、突发事件、前沿技术动态大型语言模型会不会自带偏见Holistic Evaluation of Language Modelseg 改变性别LLM 输出差异很大说明对性别有偏见如何判断输出差异很大上述例子可以通过文本情感分析判断找有偏见的例子往往没有那么容易特别是模型的能力越来越强后用另一个 LLM 负责想一些可以产生偏见的输入通过 RL 最大化得分差距帮忙挖掘出当前 LLM 存在的偏见下面来个 AI 筛选简历的例子审查履历同一份履历复制 8 份换了 8 个人名这些姓名分别具有明显的统计特征能够让模型推断出求职者是黑人、白人、亚裔或西班牙裔。实验1000次让 GPT 模型对这些简历进行打分或排序决定谁更适合特定的工作岗位。左边是得分靠前的履历右边是得分靠后的履历当使用 GPT-3.5 或 GPT-4 等模型对简历进行筛选时仅仅因为简历上体现出的种族偏好名字模型就会给出截然不同的评价即使简历的背景和资历完全一致。核心发现隐形偏见的放大系统性歧视研究发现名字听起来像“白人”的简历被选中的频率显著高于名字听起来像“黑人”的简历即便两者的职业背景完全一致。刻板印象倾向模型倾向于将某些种族与特定的职业标签挂钩。例如在某些服务性行业或低端岗位模型可能给少数裔更高分但在高级管理或技术岗位偏见则向白人倾斜。黑盒效应这种偏见通常不是由显式的指令引起的例如你没有告诉它“不要黑人”而是由于预训练数据互联网文本中潜藏的人类历史偏见被模型内化并放大。从算法工程的角度看这种歧视源于以下几个方面训练语料的偏差模型在学习过程中吸收了包含偏见的人类社会数据。如果历史数据中某个职位的成功者多为某一族裔模型会错误地将其关联为“成功因子”。语义关联强度在向量空间中某些名字可能与“领导力”、“技术精湛”等正面词汇的余弦相似度更高而另一些名字可能关联度较低。缺乏事实对齐模型在处理招聘任务时往往是在做“概率预测”预测哪个名字出现在好简历下的概率更高而非真正的“逻辑评估”。招聘 HRwomen 比 men 排名靠前招聘 softwar engineerwhite women 排在最前面通过Embedding 投影发现模型在向量空间中已经自动将“名字”按族裔聚类。这种空间上的接近性Proximity导致模型在计算相似度时不自觉地将特定族裔与特定评价关联。kindergarten teacher刻板印象 her建筑工人刻板印象his语言模型的 ZZ 倾向打太极还反过来问你哈哈哈「你对这个问题有什么看法呢」prompt 中加入你的回答可以包含以上选项它就表达了自己的 zz 倾向economic 左派 vs 右派自由主义 vs 权威主义authoritarian可以很直观的看到各类 LLM 的 ZZ 倾向都偏左自由减轻偏见的方法pre-processingin-trainingintra-processpost-processPre-Processing预处理阶段从源头干预这是成本最低、但往往最有效的方法。数据增强/平衡通过改变训练数据或 Prompt 的输入。图中示例将 “He worked as an inventor” 修改为中性的 “They worked as an inventor”。通过这种方式在模型接触到数据前就打破性别、族裔与职业的强关联。In-Training训练阶段模型内化在模型权重更新过程中引入约束。对抗性训练 (Adversarial Training)引入一个“判别器”如果它能根据模型输出推断出受保护的属性如种族则对模型施加惩罚。公平性约束损失函数在 Loss Function 中加入公平性指标使模型在追求准确率的同时最小化不同群体间的预测差异。Intra-Processing推理干预阶段解码控制在不改变模型参数的情况下修改推理Inference时的行为。Logits 修改在输出概率分布上做手脚。如果模型倾向于给某个偏见词汇高分可以通过惩罚项Penalty压低该概率。激活引导 (Activation Steering)通过找到模型内部代表“偏见”的激活向量在推理时减去该向量从而实时引导模型输出更中立的内容。Post-Processing后处理阶段输出重写对模型已经生成的文本进行二次加工。重写逻辑如图中所示将包含性别偏见的词汇his job重写为中性词汇their job。自校正 (Self-Correction)让 LLM 自己检查输出。例如“检查上述回答是否包含族裔偏见如果有请重写。”这句话是不是大型语言模型讲的如何侦测一句话是不是人工智慧生成的期刊会议中有多少审查意见是 AI 生成的可以看到ChatGPT 问世后评估是 AI 写的占比明显升高NLP 一骑绝尘其次是 ML然后是多个学科领域说明发明 LLM 的业内人事用的最早ML 其次还有很多人没有怎么拥抱 LLM上面统计靠谱不有没有可能人类写作的风格变了变成 AI 的风格有些词汇在 ChatGPT 问世后频次显著提升AI 生成实锤那有没有可能只是用 AI帮忙润色呢浅色润稿前、深色润稿后润稿前后 AI 比例上升没有那么明显相比于虚线说明还是用 AI 来写审稿意见了加了水印生成的结果人类也看不太出来参考https://speech.ee.ntu.edu.tw/~hylee/genai/2024-spring.phphttps://www.bilibili.com/video/BV18fXbY6Eis/?spm_id_from333.1387.homepage.video_card.clickvd_source8e91f8e604278558ec015e749d1a3719

更多文章