合同审阅多智能体:风险条款识别、修改建议与版本对比

张开发
2026/4/15 9:33:03 15 分钟阅读

分享文章

合同审阅多智能体:风险条款识别、修改建议与版本对比
合同审阅多智能体风险条款识别、修改建议与版本对比深度实战指南作者技术老炮老王首发平台CSDN/知乎专栏「老王的AI落地实验室」更新时间202X年XX月XX日阅读时长建议45分钟附完整可运行Python代码、流程图、架构图收藏后慢慢啃0. 引言法务数字化的「最后一公里」痛点0.1 痛点引入一个真实的IPO血泪教训先给大家讲个去年我朋友公司某 SaaS 垂直领域准备港股IPO的小独角兽差点栽了的真实故事为了赶IPO的财务审计和法律尽调进度他们临时组建了一个由2个资深律师3个法务实习生的小组在3天内要批量审阅过去3年累计876份商业合同主要是客户合同、供应商采购合同、员工期权合同附件条款这三类核心风险合同。实习生负责「人肉识别并标记」可能存在的「竞业限制时间超标」「违约金上限超营收占比阈值」「保密期限过长超过10年」这三类尽调清单里明确要求的风险资深律师负责复核标记、给出修改建议、还要对比每份合同最终签版和前几版谈判稿的差异项整理成尽调报告附件。结果呢实习生漏标了2份核心大客户合同里的「竞业限制从离职后2年被误写成10年」条款——虽然这是笔误但如果直接提交给港交所聆讯会被认为「公司内部合同管理混乱、核心员工激励存在重大风险隐患」至少要推迟6个月聆讯还有资深律师在对比1份50多页的供应商框架协议谈判稿与签版时漏掉了签版里偷偷加的「每逾期付款1天违约金按应付金额的0.5%计算」而不是谈判稿里的0.05%条款当时他们公司正因为供应链波动拖了这个供应商120万货款算下来光违约金就要赔72万比货款的一半还多。还好他们找的IPO法律顾问最后抽查了10%的标记漏标率、对比准确率实习生漏标率2.8%对比漏项率17.3%资深律师漏项率3.2%对比漏项率1.7%——但就是那1.7%里藏了那两个大雷紧急花了100万找了一家AI法务公司用「合同审阅多智能体系统」重做了一遍才把雷排掉赶在聆讯前3天提交了合格的尽调材料。0.2 问题现状传统合同审阅模式的3座大山其实不止这家小独角兽几乎所有的企业、律所、会计师事务所都面临着传统合同审阅模式的3座大山0.2.1 效率极低据艾瑞咨询202X年《中国AI法务行业白皮书》统计人工单页合同平均审阅时间简单合同劳动合同、采购订单约2-5分钟复杂合同框架协议、投融资协议约10-30分钟人工批量合同尽调效率1000份合同需要3-5个资深律师10-15个法务实习生连续工作1-2周人工对比多版本合同效率一份50页的多版本框架协议人工逐字逐句对比至少需要8-12小时0.2.2 成本极高国内一线城市资深律师的时薪普通民商事律师约500-2000元/小时投融资/IPO专项律师约2000-10000元/小时艾瑞咨询统计202X年国内企业平均每年在人工合同审阅上的投入占总法务预算的45%-65%其中大型集团企业合同量每年超过10万份的投入甚至超过1亿元/年0.2.3 准确率波动大实习生漏标率约2%-5%主要是因为对业务场景、法律条款不熟悉资深律师漏标/错标率约0.5%-2%主要是因为连续工作疲劳、对某些冷门行业的法律法规不熟悉人工对比多版本合同漏项率约1%-10%主要是因为合同排版变化、字体字号变化、图片表格变化、隐形条款插入导致的视觉疲劳0.3 解决方案概述为什么是「合同审阅多智能体」之前也有一些企业尝试过用「单智能体」或者「传统NLP模型规则引擎」的方案来解决合同审阅的问题但效果都不太好0.3.1 传统NLP模型规则引擎的局限性规则扩展性差需要针对每个行业、每个风险类型、每个合同模板手动编写大量的规则维护成本极高语义理解能力弱只能识别「关键词匹配」的风险无法识别「隐含语义」「歧义条款」「跨段落的关联风险」修改建议能力几乎为零只能标记风险无法给出符合当前行业惯例、法律法规的修改建议版本对比能力弱只能识别「文字层面的差异」无法识别「差异带来的法律风险变化」0.3.2 单智能体的局限性任务分工不明确一个智能体既要做「合同格式解析」「风险条款识别」「修改建议生成」「多版本对比」还要做「法律知识检索」「风险评估打分」导致每个任务的精度都不高知识局限性强单个智能体很难同时覆盖「民法总则」「合同法」「公司法」「劳动法」「行业监管规定」「企业内部规章制度」等多维度的知识迭代效率低如果某个任务的精度需要提升必须重新训练整个智能体模型训练成本和时间都很高而合同审阅多智能体Contract Review Multi-Agent System, CR-MAS则完美地解决了上述问题任务分工明确将复杂的合同审阅任务拆解成「格式解析智能体」「风险识别智能体集群」「修改建议生成智能体集群」「多版本对比智能体」「风险评估智能体」「知识检索与更新智能体」等多个独立的、专业化的智能体每个智能体只负责自己擅长的任务精度和效率都大幅提升知识分布式存储与共享每个智能体都有自己专属的知识库比如风险识别智能体有「风险条款知识库」修改建议生成智能体有「行业惯例修改建议库」「法律法规修改建议库」同时所有智能体又共享一个「全局知识图谱」可以快速检索和共享多维度的知识迭代效率高如果某个任务的精度需要提升只需要重新训练对应的智能体模型或者更新对应的知识库不需要改动整个系统协作机制完善智能体之间通过「消息队列」或者「黑板模型」进行协作可以实时沟通、反馈、优化任务结果0.4 最终效果展示本文要带大家实现的CR-MAS核心功能本文要带大家从零到一实现一个轻量级但功能完整的合同审阅多智能体系统核心功能包括合同格式解析支持解析PDF、Word、TXT格式的合同提取合同的「标题」「签约方」「签约时间」「核心条款章节」等结构化信息风险条款识别支持识别「竞业限制时间超标」「违约金上限超阈值」「保密期限过长」「付款期限不合理」「管辖法院不符合企业内部规定」这5类常见的核心风险精度要求≥90%修改建议生成针对识别到的风险给出符合「当前行业惯例」「最新法律法规」「企业内部规章制度」的3条以上修改建议多版本合同对比支持对比2-5版合同的「文字层面的差异」「差异带来的法律风险变化」「风险等级变化」生成一份结构化的对比报告风险评估打分针对整份合同或者单个风险条款从「合规风险」「财务风险」「商业风险」3个维度进行打分0-100分并给出风险等级低风险、中风险、高风险、极高风险为了让大家能够直观地看到效果我先放几张本文实现的CR-MAS系统的最终截图/效果预览图因为是文字博客这里我用文字伪界面的形式展示完整的界面代码我会附在GitHub仓库里【效果预览1风险条款识别与修改建议生成界面】 合同审阅多智能体系统 - 风险审阅模块 【合同基本信息】 - 合同名称《XX SaaS客户订阅服务框架协议》 - 签约方甲方我司老王的AI落地实验室有限公司乙方客户XX科技集团有限公司 - 签约时间202X-01-01 - 合同页数23页 - 解析状态✅ 成功解析 【风险条款识别结果按风险等级从高到低排序】 序号 风险类型 风险等级 风险位置 风险条款原文 合规/财务/商业风险打分 --- -------------------- ------ ------ ------------------------------------------------------------------------ ------------------- 1 违约金上限超阈值 极高风险 第7章第2条 「若甲方未按本协议约定向乙方提供订阅服务每逾期1天应向乙方支付应付未付服务费的0.8%作为违约金逾期超过15天的乙方有权单方面解除本协议并要求甲方支付应付未付服务费的30%作为违约金。」 合规95/财务98/商业92 2 保密期限过长 高风险 第9章第1条 「本协议终止后双方应对在本协议履行过程中知悉的对方商业秘密、技术秘密等保密信息承担保密义务保密期限为15年。」 合规82/财务75/商业88 3 管辖法院不符合企业内部规定 中风险 第12章第3条 「因本协议引起的或与本协议有关的任何争议均应提交乙方所在地有管辖权的人民法院诉讼解决。」 合规65/财务45/商业70 【选中风险1的修改建议生成结果】 风险类型违约金上限超阈值 风险依据 1. 《民法典》第五百八十五条第二款约定的违约金低于造成的损失的人民法院或者仲裁机构可以根据当事人的请求予以增加约定的违约金过分高于造成的损失的人民法院或者仲裁机构可以根据当事人的请求予以适当减少。 2. 《最高人民法院关于适用中华人民共和国民法典合同编通则若干问题的解释》第六十九条当事人主张约定的违约金过高请求予以适当减少的人民法院应当以实际损失为基础兼顾合同的履行情况、当事人的过错程度以及预期利益等综合因素根据公平原则和诚信原则予以衡量并作出裁决。当事人约定的违约金超过造成损失的百分之三十的一般可以认定为民法典第五百八十五条第二款规定的“过分高于造成的损失”。 3. 我司《合同管理制度》第15条第2款客户订阅服务框架协议的逾期交付违约金上限不得超过应付未付服务费的0.1%/天单方面解除协议的违约金上限不得超过应付未付服务费的10%。 4. SaaS行业惯例逾期交付违约金一般为0.05%-0.1%/天单方面解除协议的违约金一般为5%-10%。 修改建议按优先级从高到低排序 1. **优先级高**推荐直接使用 修改后条款「若甲方未按本协议约定向乙方提供订阅服务每逾期1天应向乙方支付应付未付服务费的0.08%作为违约金逾期超过15天的乙方有权单方面解除本协议并要求甲方支付应付未付服务费的8%作为违约金。」 修改理由① 符合《民法典》及相关司法解释的规定② 符合我司《合同管理制度》的要求③ 符合SaaS行业的惯例④ 兼顾了双方的利益。 2. **优先级中**可根据谈判情况调整 修改后条款「若甲方未按本协议约定向乙方提供订阅服务每逾期1天应向乙方支付应付未付服务费的0.1%作为违约金逾期超过15天的乙方有权单方面解除本协议并要求甲方支付应付未付服务费的10%作为违约金。」 修改理由① 完全符合我司《合同管理制度》的要求② 符合SaaS行业的惯例③ 如果谈判有压力可以用这个作为底线。 3. **优先级低**仅在极端谈判情况下使用 修改后条款「若甲方未按本协议约定向乙方提供订阅服务每逾期1天应向乙方支付应付未付服务费的0.15%作为违约金逾期超过15天的乙方有权单方面解除本协议并要求甲方支付应付未付服务费的15%作为违约金。同时双方约定若甲方认为违约金过高有权请求人民法院或者仲裁机构予以适当减少。」 修改理由① 虽然超过了我司《合同管理制度》的要求但仍在《民法典》及相关司法解释规定的“不过分高于造成损失”的范围内假设造成的损失为应付未付服务费的50%则15%的违约金未超过30%的上限② 加入了“违约金过高可请求调整”的条款为我司留了后路③ 仅在客户非常强势、谈判没有空间的情况下使用。【效果预览2多版本合同对比界面】 合同审阅多智能体系统 - 版本对比模块 【对比基本信息】 - 合同名称《XX SaaS客户订阅服务框架协议》 - 对比版本数3版 - 版本顺序谈判稿V1202X-01-01→ 谈判稿V2202X-01-05→ 最终签版V3202X-01-10 - 对比状态✅ 成功对比 【文字层面差异统计】 - 新增内容12处涉及第3章、第5章、第7章、第9章、第12章 - 删除内容8处涉及第2章、第4章、第7章 - 修改内容15处涉及第3章、第5章、第7章、第9章、第10章、第12章 - 排版/格式/图片/表格变化5处涉及第1章、第6章、第11章 【差异带来的法律风险变化统计】 - 新增风险2处极高风险1处、中风险1处 - 删除风险3处高风险1处、中风险2处 - 风险等级提升1处从低风险提升到高风险 - 风险等级降低2处从高风险降低到中风险、从低风险降低到无风险 【结构化对比报告按风险等级从高到低排序仅展示有风险变化的差异】 序号 差异类型 风险变化类型 风险等级V1→V2→V3 差异位置 谈判稿V1原文 谈判稿V2原文 最终签版V3原文 风险评估仅V3 --- ------ ---------- -------------------- ------ ------------------------------------------- ------------------------------------------- ------------------------------------------- ------------------- 1 修改内容 新增风险极高 低→低→极高 第7章第2条 「若甲方未按本协议约定向乙方提供订阅服务每逾期1天应向乙方支付应付未付服务费的0.05%作为违约金逾期超过15天的乙方有权单方面解除本协议。」 「若甲方未按本协议约定向乙方提供订阅服务每逾期1天应向乙方支付应付未付服务费的0.1%作为违约金逾期超过15天的乙方有权单方面解除本协议并要求甲方支付应付未付服务费的5%作为违约金。」 「若甲方未按本协议约定向乙方提供订阅服务每逾期1天应向乙方支付应付未付服务费的0.8%作为违约金逾期超过15天的乙方有权单方面解除本协议并要求甲方支付应付未付服务费的30%作为违约金。」 合规95/财务98/商业92 2 修改内容 风险等级提升低→高 低→低→高 第9章第1条 「本协议终止后双方应对在本协议履行过程中知悉的对方商业秘密、技术秘密等保密信息承担保密义务保密期限为5年。」 「本协议终止后双方应对在本协议履行过程中知悉的对方商业秘密、技术秘密等保密信息承担保密义务保密期限为10年。」 「本协议终止后双方应对在本协议履行过程中知悉的对方商业秘密、技术秘密等保密信息承担保密义务保密期限为15年。」 合规82/财务75/商业88 3 删除内容 删除风险高 高→高→无 第7章第3条 「若乙方未按本协议约定向甲方支付订阅服务费每逾期1天应向甲方支付应付未付服务费的0.01%作为违约金逾期超过30天的甲方有权单方面暂停服务但不得解除本协议。」 「若乙方未按本协议约定向甲方支付订阅服务费每逾期1天应向甲方支付应付未付服务费的0.01%作为违约金逾期超过30天的甲方有权单方面暂停服务但不得解除本协议。」 已删除 无【效果预览3风险评估总报告界面】 合同审阅多智能体系统 - 风险评估总报告 【合同基本信息】 - 合同名称《XX SaaS客户订阅服务框架协议》 - 签约方甲方我司老王的AI落地实验室有限公司乙方客户XX科技集团有限公司 - 签约时间202X-01-01 - 合同页数23页 - 合同类别客户订阅服务框架协议 【风险评估总得分】 - 合规风险总得分72分中风险 - 财务风险总得分68分中风险 - 商业风险总得分75分中风险 - 综合风险总得分71分中风险 【风险等级分布】 - 极高风险1处 - 高风险1处 - 中风险1处 - 低风险3处 - 无风险23处假设核心条款有29处 【合同审阅建议】 1. **必须修改的风险极高风险** 第7章第2条的违约金上限超阈值条款建议使用优先级高的修改建议。 2. **建议修改的风险高风险** 第9章第1条的保密期限过长条款建议修改为「保密期限为5年法律法规另有规定的除外」。 3. **可根据谈判情况修改的风险中风险** 第12章第3条的管辖法院不符合企业内部规定条款建议修改为「因本协议引起的或与本协议有关的任何争议均应提交甲方所在地有管辖权的人民法院诉讼解决」如果客户不同意可以修改为「因本协议引起的或与本协议有关的任何争议均应提交合同签订地XX市XX区有管辖权的人民法院诉讼解决」。 4. **其他低风险条款** 可以根据业务需要进行微调不需要优先处理。 【知识检索与更新建议】 1. 建议更新「违约金上限知识库」加入「XX科技集团有限公司同类合同的违约金上限」的案例。 2. 建议更新「保密期限知识库」加入「SaaS行业最新的保密期限惯例」的案例。0.5 文章脉络接下来我们要做什么本文将按照「问题解决型深度剖析型」的混合结构来撰写具体的章节安排如下第1章准备工作——搭建CR-MAS的开发环境、了解前置知识环境/工具列出所需的开发环境、软件版本、依赖库等基础知识说明需要读者具备哪些前置知识并提供相关学习资源的链接第2章概念体系——深入理解CR-MAS的核心概念、架构、协作机制核心概念解释智能体、多智能体系统、合同审阅、风险条款识别、修改建议生成、多版本对比等核心概念概念结构与核心要素组成用ER图、Mermaid架构图展示CR-MAS的概念结构与核心要素组成概念之间的关系用Mermaid交互关系图展示智能体之间的交互关系用Markdown表格展示核心概念的属性维度对比边界与外延明确CR-MAS的边界说明CR-MAS不能做什么以及未来的外延方向第3章核心原理解析——拆解CR-MAS的每个核心模块的原理合同格式解析模块讲解如何用OCRNLP技术解析PDF、Word、TXT格式的合同提取结构化信息风险识别智能体集群模块讲解如何用「大语言模型LLM提示工程Prompt Engineering知识检索增强生成RAG规则引擎」的混合方案识别风险条款修改建议生成智能体集群模块讲解如何用「LLMRAG行业惯例库法律法规库企业内部规章制度库」的方案生成修改建议多版本对比智能体模块讲解如何用「文本相似度算法LLM风险识别模块」的方案对比多版本合同识别差异带来的法律风险变化风险评估智能体模块讲解如何用「层次分析法AHP模糊综合评价法LLM」的方案对风险条款和整份合同进行评估打分知识检索与更新智能体模块讲解如何用「向量数据库Vector DB知识图谱KGLLM」的方案构建和维护知识库第4章实战开发——从零到一实现轻量级CR-MAS系统项目介绍介绍本文要实现的轻量级CR-MAS系统的项目结构、功能模块环境安装详细讲解如何安装和配置所有的依赖库系统功能设计详细讲解每个功能模块的设计思路系统架构设计用Mermaid架构图展示系统的整体架构系统接口设计用Markdown表格展示系统的核心API接口系统核心实现源代码展示每个功能模块的Python源代码并加以详细注释第5章最佳实践与行业应用——如何将CR-MAS落地到实际项目中最佳实践Tips分享10条以上CR-MAS落地的最佳实践Tips实际场景应用举3个以上CR-MAS在实际项目中的应用案例比如企业法务部、律所、会计师事务所行业发展与未来趋势用Markdown表格展示合同审阅AI的发展历史展望未来的发展趋势第6章总结与展望——回顾本文的核心内容展望未来的研究方向回顾要点总结本文的核心内容和关键步骤常见问题FAQ预想读者可能会遇到的问题并给出解答下一步/相关资源提供相关的学习资源、文档链接、GitHub仓库、后续可以深入研究的方向1. 准备工作——搭建CR-MAS的开发环境、了解前置知识在正式开始讲解CR-MAS的原理和实战开发之前我们需要先搭建好开发环境并了解一些必要的前置知识。1.1 环境/工具列出所需的开发环境、软件版本、依赖库等本文要实现的轻量级CR-MAS系统是用Python 3.10开发的因为Python 3.10有很多新特性比如类型注解的改进、match-case语句的支持等可以提高开发效率和代码的可读性。1.1.1 硬件要求CPU建议4核以上如果要本地部署大语言模型建议8核以上内存建议16GB以上如果要本地部署大语言模型建议32GB以上如果要本地部署7B参数的大语言模型建议64GB以上硬盘建议100GB以上的SSD如果要本地部署大语言模型和向量数据库建议200GB以上的SSD显卡可选但推荐如果要本地部署大语言模型建议使用NVIDIA GPU显存建议16GB以上比如RTX 3090、RTX 4090、A10G等如果要使用GPU加速向量数据库的检索也建议使用NVIDIA GPU1.1.2 软件要求操作系统Windows 10/11、macOS 11、LinuxUbuntu 20.04、CentOS 7等都可以推荐使用Linux或macOS因为Windows上有些依赖库的安装可能会比较麻烦Python版本Python 3.10.0或更高版本建议使用Python 3.10.12或Python 3.11.7因为这两个版本比较稳定Git版本Git 2.30.0或更高版本用于克隆GitHub仓库Docker版本可选但推荐Docker 20.10.0或更高版本用于部署向量数据库、大语言模型等服务简化环境配置Docker Compose版本可选但推荐Docker Compose 2.0.0或更高版本用于一键部署多个服务1.1.3 核心依赖库本文要实现的轻量级CR-MAS系统的核心依赖库如下表所示依赖库名称版本要求用途说明python-dotenv1.0.0用于加载.env文件中的环境变量比如API密钥、数据库连接信息等PyPDF23.0.0用于解析PDF格式的合同如果PDF是纯文本格式的如果PDF是扫描件需要使用OCR库比如pytesseract、easyocrpython-docx1.1.0用于解析Word格式的合同.docx格式langchain0.1.0用于构建LLM应用的框架提供了很多开箱即用的工具比如文本分割、向量数据库集成、LLM集成、RAG链等langchain-openai0.0.5用于集成OpenAI的大语言模型比如GPT-3.5-turbo、GPT-4-turbo、GPT-4o等和嵌入模型比如text-embedding-3-small、text-embedding-3-large等chromadb0.4.0用于本地部署的轻量级向量数据库存储合同文本的嵌入向量、知识库的嵌入向量等faiss-cpu/faiss-gpu1.7.0用于本地部署的高性能向量数据库CPU版本使用faiss-cpuGPU版本使用faiss-gpu需要NVIDIA GPUsentence-transformers2.2.0用于生成文本的嵌入向量如果不想使用OpenAI的嵌入模型可以使用本地的开源嵌入模型比如all-MiniLM-L6-v2、all-mpnet-base-v2等difflibPython内置用于对比两个文本的差异文字层面的差异diff-match-patch20230430用于对比两个文本的差异比difflib更强大支持识别排版变化、格式变化等pandas2.0.0用于处理结构化数据比如对比报告、风险评估报告等numpy1.24.0用于数值计算比如层次分析法、模糊综合评价法的计算等scikit-learn1.3.0用于机器学习算法比如文本相似度算法的计算等streamlit1.30.0用于快速构建Web界面本文的CR-MAS系统的界面就是用Streamlit构建的requests2.31.0用于发送HTTP请求比如调用第三方API、调用本地部署的大语言模型API等beautifulsoup44.12.0用于爬取网页上的法律法规、行业惯例等知识可选networkx3.0.0用于构建知识图谱可选matplotlib3.7.0用于绘制图表比如风险等级分布图表、风险评估得分图表等seaborn0.12.0用于绘制更美观的图表可选1.1.4 可选的第三方服务OpenAI API用于调用GPT-3.5-turbo、GPT-4-turbo、GPT-4o等大语言模型和text-embedding-3-small、text-embedding-3-large等嵌入模型需要注册OpenAI账号并获取API密钥收费标准参考OpenAI官网Azure OpenAI API与OpenAI API类似但由微软Azure提供更稳定、更安全需要注册Azure账号并创建Azure OpenAI服务收费标准参考Azure官网Claude API由Anthropic提供的大语言模型APIClaude 3 Opus的性能与GPT-4o相当Claude 3 Sonnet的性能与GPT-4-turbo相当Claude 3 Haiku的性能与GPT-3.5-turbo相当需要注册Anthropic账号并获取API密钥收费标准参考Anthropic官网本地开源大语言模型比如Llama 3、Mistral、Qwen通义千问、ChatGLM智谱AI等可以通过Ollama、vLLM、Text Generation Inference等工具本地部署不需要付费但对硬件要求较高本地开源嵌入模型比如all-MiniLM-L6-v2、all-mpnet-base-v2、Qwen-Embedding、ChatGLM-Embedding等可以通过Sentence-Transformers、Ollama等工具本地部署不需要付费1.2 基础知识说明需要读者具备哪些前置知识并提供相关学习资源的链接本文要实现的轻量级CR-MAS系统涉及到很多技术领域的知识为了让大家能够更好地理解本文的内容建议大家先具备以下前置知识1.2.1 Python编程基础掌握Python的基本语法比如变量、数据类型、运算符、条件语句、循环语句、函数、类、模块、包等掌握Python的文件操作比如读写TXT、CSV、JSON等格式的文件掌握Python的第三方库的安装和使用比如pip、conda等包管理工具学习资源推荐《Python编程从入门到实践》第2版—— Eric Matthes著袁国忠译廖雪峰的Python教程https://www.liaoxuefeng.com/wiki/1016959663602400菜鸟教程的Python教程https://www.runoob.com/python3/python3-tutorial.html1.2.2 自然语言处理NLP基础掌握NLP的基本概念比如分词、词性标注、命名实体识别、文本分类、文本相似度、文本嵌入等了解NLP的基本技术比如规则引擎、传统机器学习方法、深度学习方法、大语言模型等学习资源推荐《自然语言处理实战》—— Hobson Lane、Cole Howard、Hannes Hapke著赵鹏、陈光译吴恩达的《自然语言处理专项课程》Courserahttps://www.coursera.org/specializations/natural-language-processing李沐的《动手学深度学习》NLP部分https://zh.d2l.ai/chapter_natural-language-processing/index.html1.2.3 大语言模型LLM与提示工程Prompt Engineering基础掌握LLM的基本概念比如Transformer架构、预训练、微调、提示工程、检索增强生成RAG等掌握提示工程的基本技巧比如角色设定、任务明确、提供上下文、提供示例、链式思考Chain-of-Thought, CoT、思维树Tree-of-Thought, ToT等了解LLM的局限性比如幻觉Hallucination、上下文窗口限制、推理能力有限等学习资源推荐《Prompt Engineering for Developers》DeepLearning.AI与OpenAI联合推出的免费课程https://www.deeplearning.ai/short-courses/chatgpt-prompt-engineering-for-developers/《Building Systems with the ChatGPT API》DeepLearning.AI与OpenAI联合推出的免费课程https://www.deeplearning.ai/short-courses/building-systems-with-chatgpt/OpenAI的Prompt Engineering指南https://platform.openai.com/docs/guides/prompt-engineering吴恩达的《Generative AI with Large Language Models》Courserahttps://www.coursera.org/learn/generative-ai-with-llms1.2.4 LangChain框架基础掌握LangChain的基本概念比如LLM、Chat Model、Embedding、Vector Store、Retriever、Chain、Agent、Tool等掌握LangChain的基本使用方法比如如何集成LLM、如何构建RAG链、如何构建Agent等学习资源推荐LangChain官方文档https://python.langchain.com/docs/get_started/introduction《LangChain实战》—— 黄佳著DeepLearning.AI的《LangChain for LLM Application Development》免费课程https://www.deeplearning.ai/short-courses/langchain-for-llm-application-development/1.2.5 向量数据库基础掌握向量数据库的基本概念比如向量嵌入、相似度搜索余弦相似度、欧氏距离、点积相似度等、索引比如HNSW、IVF、Flat等等掌握至少一种向量数据库的基本使用方法比如ChromaDB、FAISS、Pinecone、Weaviate、Milvus等学习资源推荐ChromaDB官方文档https://docs.trychroma.com/FAISS官方文档https://github.com/facebookresearch/faiss/wikiPinecone官方文档https://docs.pinecone.io/docs/overview向量数据库入门指南知乎https://zhuanlan.zhihu.com/p/6274575221.2.6 Streamlit框架基础掌握Streamlit的基本概念比如组件、布局、状态管理等掌握Streamlit的基本使用方法比如如何创建Web界面、如何添加组件、如何处理用户输入等学习资源推荐Streamlit官方文档https://docs.streamlit.io/《Streamlit实战》—— 李明著Streamlit入门教程B站https://www.bilibili.com/video/BV1mG411V7jD/1.2.7 法律基础知识可选但推荐了解《民法典》合同编的基本内容比如合同的订立、效力、履行、变更、转让、终止、违约责任等了解常见的合同风险类型比如竞业限制风险、违约金风险、保密期限风险、付款期限风险、管辖法院风险等了解常见的行业惯例比如SaaS行业的违约金上限、保密期限等学习资源推荐《民法典》合同编官方文本https://flk.npc.gov.cn/xf/html/2020-06/01/content_21178.htm《最高人民法院关于适用中华人民共和国民法典合同编通则若干问题的解释》官方文本https://www.court.gov.cn/fabu-xiangqing-394281.html罗翔的刑法课B站—— 虽然是刑法课但可以帮助大家培养法律思维https://www.bilibili.com/video/BV1wE411578W/2. 概念体系——深入理解CR-MAS的核心概念、架构、协作机制在正式开始讲解CR-MAS的原理和实战开发之前我们需要先建立一个清晰的概念体系深入理解CR-MAS的核心概念、架构、协作机制。2.1 核心概念解释CR-MAS涉及到的所有核心概念2.1.1 智能体Agent智能体是指能够感知环境、并根据感知到的信息自主地采取行动以实现某个目标的实体。在AI领域智能体通常可以分为以下几类简单反射智能体Simple Reflex Agent只根据当前的感知信息采取行动不考虑过去的历史信息比如传统的规则引擎基于模型的反射智能体Model-Based Reflex Agent会维护一个内部模型来记录过去的历史信息根据当前的感知信息和内部模型采取行动基于目标的智能体Goal-Based Agent会根据当前的感知信息、内部模型和目标来采取行动基于效用的智能体Utility-Based Agent会根据当前的感知信息、内部模型、目标和效用函数来采取行动效用函数用来衡量每个行动的好坏智能体会选择效用最高的行动学习型智能体Learning Agent会通过学习来不断改进自己的行动策略比如基于强化学习的智能体、基于微调的大语言模型智能体等在本文要实现的CR-MAS系统中所有的智能体都是基于效用的学习型智能体——它们会根据当前的感知信息、内部模型、目标和效用函数来采取行动同时会通过用户的反馈不断学习和改进自己的行动策略。2.1.2 多智能体系统Multi-Agent System, MAS多智能体系统是指由多个相互独立、但又相互协作的智能体组成的系统这些智能体通过某种通信机制进行交互共同完成一个复杂的任务。多智能体系统的核心特点包括自主性Autonomy每个智能体都能自主地感知环境、采取行动不需要外部的强制干预分布性Distribution每个智能体可以分布在不同的硬件设备上也可以分布在同一个硬件设备上的不同进程或线程中交互性Interaction智能体之间通过某种通信机制进行交互比如消息队列、黑板模型、直接通信等协作性Cooperation智能体之间会相互协作共同完成一个复杂的任务也可以是竞争性的但在CR-MAS系统中是协作性的自组织性Self-Organization多智能体系统可以通过智能体之间的交互自组织成一个有序的结构不需要外部的全局控制多智能体系统的应用场景非常广泛除了合同审阅之外还包括自动驾驶多个传感器智能体、多个决策智能体协作智能制造多个机器人智能体、多个监控智能体协作智能客服多个客服智能体、多个知识库智能体协作金融风控多个风险识别智能体、多个风险评估智能体协作游戏AI多个NPC智能体协作2.1.3 合同审阅Contract Review合同审阅是指对合同的内容进行审查、分析、评估以识别其中的风险条款、歧义条款、不符合法律法规或企业内部规章制度的条款并给出修改建议的过程。合同审阅的核心流程通常包括合同格式解析解析PDF、Word、TXT等格式的合同提取结构化信息比如标题、签约方、签约时间、核心条款章节等合同内容通读通读整份合同了解合同的主要内容和目的风险条款识别识别合同中的风险条款、歧义条款、不符合法律法规或企业内部规章制度的条款风险评估打分对识别到的风险条款进行评估打分确定风险等级修改建议生成针对识别到的风险条款给出符合当前行业惯例、法律法规、企业内部规章制度的修改建议多版本合同对比如果有多份谈判稿或签版对比不同版本的差异识别差异带来的法律风险变化合同审阅报告生成生成一份结构化的合同审阅报告包括合同基本信息、风险条款识别结果、风险评估结果、修改建议、多版本对比结果等2.1.4 风险条款识别Risk Clause Identification风险条款识别是指从合同文本中识别出可能会给企业带来合规风险、财务风险、商业风险的条款的过程。常见的合同风险条款类型包括合规风险条款不符合法律法规、行业监管规定、企业内部规章制度的条款比如竞业限制时间超标、保密期限过长、管辖法院不符合规定等财务风险条款可能会给企业带来财务损失的条款比如违约金上限超阈值、付款期限不合理、赔偿责任范围过大等商业风险条款可能会给企业带来商业利益损失的条款比如排他性条款过于严格、知识产权归属不合理、价格调整条款过于苛刻等歧义条款内容模糊、可能会产生不同解释的条款比如“合理时间”“适当补偿”等没有明确界定的术语跨段落关联风险条款分布在不同段落或章节的、相互关联的风险条款比如第7章的违约金条款和第9章的保密条款相互关联第12章的管辖法院条款和第13章的争议解决条款相互关联等2.1.5 修改建议生成Modification Suggestion Generation修改建议生成是指针对识别到的风险条款给出符合当前行业惯例、法律法规、企业内部规章制度的、可操作的修改建议的过程。一份好的修改建议通常应该包括修改前的条款原文明确指出要修改的条款修改依据说明为什么要修改这条条款比如引用了哪条法律法规、哪条行业监管规定、哪条企业内部规章制度、哪个行业惯例案例等修改后的条款给出可操作的、明确的修改后的条款修改理由说明修改后的条款有什么好处

更多文章