Karpathy LLM Knowledge Base 体验及教程分享

张开发
2026/4/18 20:25:59 15 分钟阅读

分享文章

Karpathy LLM Knowledge Base 体验及教程分享
Karpathy 最近 2026年4月 在社交平台上分享的LLM Knowledge Base (也叫 LLM Wiki)带火了一套新的“玩耍方式”。这套思路的核心是把传统的 RAG检索增强生成推倒重来用“编译”的思想去管理个人知识库。使用场景梳理混乱的知识这里的 wiki 指的是什么一种组织知识的架构方式。形式上它是互联的 Markdown 文件库和 RAG 的区别1. 从“碎片化”转向“结构化”传统 RAG 的痛点它是“断章取义”的。当你问一个复杂问题时系统会从 10 篇文档里切出 50 个片段塞给 AI。AI 面对的是一堆逻辑破碎的纸条很容易产生“幻觉”或遗漏关键上下文。Karpathy 模式的优点在你提问之前LLM 已经把这 10 篇文档预先消化并合成了一个逻辑自洽的 Wiki 页面。 利用大模型去对知识建立链接有逻辑 2. 可读性与“自我修复”传统 RAG 的痛点向量数据库是一个黑盒。你不知道里面存了什么也很难手动去改一个向量。Karpathy 模式的优点最终产物是Markdown 文件。它是人类可读的。如果你发现 AI 总结得不对你可以直接像改代码一样改掉它。3. 适配“超长上下文”时代传统 RAG 的背景诞生于 LLM 只能读几千个 Token 的时代所以必须切片。Karpathy 模式的背景现在的 Claude 3.5 或 GPT-4o 动辄支持 200k 甚至 1M 的上下文体验一下第一阶段1. 下载并安装 Obsidian它本质上是一个 Markdown 编辑器但它的双向链接和图谱功能是 LLM Wiki 的物理基础2. 在 Obsidian 的仓库里右键新建以下文件夹00_Inbox原材料库存放所有未经处理的原始抓取文档Markdown、PDF 转的文本02_Wiki成品区 (核心)LLM 编写的百科页面Concept pages。这是你真正查询的地方03_System控制室存放所有的 Prompts、脚本文件以及全局索引Index.md3. 配置抓取工具Obsidian Web Clipper LLM 无法直接阅读凌乱的网页。我们需要将信息转化成纯净的 Markdown 在浏览器安装插件在插件设置中将Vault指向你的LLM_Knowledge_Base将Folder设为00_Inbox模板设置确保抓取时保留Source URL原文链接和Date。这些元数据对 LLM 溯源非常重要。--- title: {{title}} url: {{url}} author: {{author}} captured_date: {{date}} tags: - inbox - paper/3DGS --- # {{title}} [!abstract] 来源摘要 {{description}} --- {{content}}4. 准备“执行官”Claude Code。我使用的是 GitHub copilot anget 模式让 AI 来管理你这个仓库即可。第二阶段Prompt 不再是临时的聊天记录而是你的“代码”。我们将编写一个Knowledge Compiler知识编译器。它的任务是扫描00_Inbox里的杂乱文档提取核心概念并按照统一的规格“编译”到02_Wiki中在你的03_System文件夹下新建一个文件叫Wiki_Compiler_v1.md这里的使用场景我选择的是自己的论文阅读大家按自己的需求撰写即可# Role: LLM Wiki Knowledge Architect ## Context 你是一个专门负责构建“3D 视觉与 AI 知识库”的架构师。你的目标是将原始的学术论文、代码文档转化为一套结构化、高度互联且逻辑严密的 Markdown 百科。 ## Task: The Compilation Step 1. **分析输入**读取 00_Inbox 中的指定文件。 2. **提取实体 (Entity Extraction)**识别文中的核心技术概念例如$3DGS$, $SH\ Coefficients$, $Anisotropic\ Covariance$ 等。 3. **知识建模** - 如果该概念在 02_Wiki 中不存在创建一个新文件。 - 如果已存在则将新发现的信息如新的优化技巧、公式推导通过“增量更新”的方式合并进去。 4. **建立链接**在文中所有提到的核心概念处使用 [[概念名称]] 语法建立双向链接。 ## Output Standard (Wiki Page Template) 每一个生成的 Wiki 页面必须严格遵守以下格式 --- # [概念名称] - **所属领域**: #NeRF #3DGS #PorcelainReconstruction - **定义**: 一句话解释该概念。 - **数学原理**: - 使用 LaTeX 描述核心公式。例如$$L \lambda_1 L_1 \lambda_2 L_{SSIM}$$ - **在瓷器重建中的应用/挑战**: (结合用户研究背景如高反光、纹理对称性等)。 - **相关链接**: 列出 3-5 个 [[关联概念]]。 - **来源**: 引用原始文件路径。 --- ## Rules - 严禁断章取义确保逻辑闭环。 - 所有的数学公式必须使用 $inline$ 或 $$display$$。 - 保持语言专业、简洁像 Wikipedia 一样中立。运行这个“编译器” 让 AI 干活 #file:Wiki_Compiler_v1.md 按照这个规则处理 #file:00_Inbox 文件夹里的文件并更新到 #file:02_Wiki 目录第三阶段作用让 LLM 担任“图书管理员”自动维护全局地图并修复知识库的缺陷在03_System目录下新建一个文件Maintenance_Bot.md# Role: Knowledge Base Maintenance Indexing Agent ## Context 你负责维护一个关于“3D瓷器重建与AI”的知识库。当前目录是 02_Wiki。 ## Task 1: Generate Master Index 1. 扫描 02_Wiki 下的所有 Markdown 文件。 2. 在 03_System/Index.md 中生成一个结构化的导航图。 3. 分类标准 - **基础理论** (数学、SfM, 多视图几何) - **核心技术** (NeRF, 3DGS, 渲染算法) - **领域应用** (瓷器高反光处理、对称性先验、点云采集) - **待补全** (尚未创建但被引用的概念) ## Task 2: Self-Healing (自愈) 1. **识别红链**寻找所有 [[ ]] 语法引用但 02_Wiki 中不存在对应文件的链接。 2. **生成占位符 (Stubs)**对于缺失的关键概念在 02_Wiki 下创建一个极简页面包含标题和“待补全”标签。 3. **一致性检查**如果发现多个页面提到了相同的公式如 3DGS 的协方差矩阵公式确保它们定义统一。 ## Output Format - 在 03_System/Index.md 更新索引。 - 在 Copilot 对话框中列出你新创建的“占位符”文件清单。指令依据 Maintenance_Bot.md 的规则扫描 02_Wiki 文件夹。更新 Index.md 并修复所有缺失的红链页面看看效果咋样 dog

更多文章