AI学习之私有化部署本地大模型-ollama+qwen3

张开发
2026/4/20 2:46:28 15 分钟阅读

分享文章

AI学习之私有化部署本地大模型-ollama+qwen3
引言背景网上可用的免费大模型挺多的为啥还要自己部署呢 最近用了一些免费的AI编程工具体验感一般又试了些花钱的编程模型质量确实不一样但是烧钱也很快。 所以我就想尝试再本地部署一套大模型先学习下这个过程让自己再无token焦虑~核心挑战钱包优秀的大模型太吃显存了我现在手上只有的8G的显卡的 只能先跑下大模型部署流程简单用一用这个模型智商可能还不如一些免费的 主要师体验流程啦~~本文目标我也是最近才开始正式研究AI 的这篇文章也是记录下我学习的过程顺便给同样在学习阶段的朋友一些参考第一部分需求分析与选型1.1 明确目标与场景* 具体应用场景代码助手从架构设计到编程部署知识问答理财分析文章输出。 * 期望模型具备的核心能力目前主要师编程创意文案生成。 * 性能要求响应速度、并发能力、精度。1.2 模型选择与考量选模型不必要纠结先基于硬件筛选然后可以下载多个针对优化的不同大模型切换使用模型的选择大家可以参考下这个网站输入自己的显卡型号以及可以分给AI的剩余内存看看推荐你设备运行的大模型有哪些然后再去下载对应的大模型链接: https://whatmodelscanirun.com/此时此刻非常后悔当初没有直接买16G显存版本现在只能跑7B量化模型16G可以跑20B以上的模型智商更在线也可以把你电脑的配置喂给AI 让AI 给你推荐一些模型 这里我优先考虑编程 所以先选择了Qwen2.5-Coder-7B-Instruct模型。需求场景建议模型类型推荐模型 (基于8G显存)适配情况AI编程助手代码专用模型Qwen2.5-Coder-7B-Instruct3.5版本更强估计马上也要发布了8G显存跑 7B 代码模型是最成熟的方案速度飞快理财量化、交易信息通用指令模型Qwen3-8BQwen3 8B 在 MMLU 79 分逻辑推理足够分析财经文本。微信小红书文案中文优化模型Qwen2.5-7B-Instruct文笔流畅但 7B 模型有时会略显空洞需配合较好 Prompt。专业知识学习、职业规划大参数模型Nemotron Nano 12B12B 模型会吃掉 6-7G 显存上下文一长超 16K必定溢出到系统内存导致思考变慢第二部分环境准备与模型获取2.1 操作系统与基础环境* 推荐linux 我先使用Windows玩玩电脑是Windows11 * 基础依赖安装这里就不提了2.2关键工具Ollama一个开源的大型语言模型(LLM)平台,旨在让用户能够轻松地在本地运行、管理和与大型语言模型进行交互。下载链接: https://ollama.com/download/windows下载完成后启动cmd命令行获取大模型 下载速度 就不一定了ollama run Qwen2.5-Coder 7B几分钟等待后下载完成ollama list 可以看到已经安装的大模型安装完成后使用ollama界面进行提问代码输出速度还可以显卡也是燃起来了又问了下开放性问题因为这个模型是针对编码加强的所以开发问题回答的逻辑不如免费版本的千问效果好就不展示了 下面开始把这个编码大模型接入到编码工具中。PS还有个下载方式直接在ollama中找到适合自己配置的模型直接下载即可第三部分本地模型接入编码工具**3.1 编码工具插件安装下载Continue 插件 可以配置自定义的AI源进入 Continue配置–选择local—选择ollama 在选择自己下载的大模型 点击connect之后生成配置文件可以通过配置文件添加已安装的大模型。成功使用接下来就可以使用本地大模型进行AI编程了第四部分专业知识学习搭建本地RAG知识库**工具组合Ollama AnythingLLM实现方式用Ollama加载任何本地模型如你已部署的Coder模型再用AnythingLLM连接它把你的学习笔记、PDF文档等喂给它基础依赖安装这里就不提了第 1 步安装 AnythingLLM访问网址直接下载即可链接: https://anythingllm.com运行安装程序下一步*注意不要把东西安装到C盘*安装成功后开始使用选择手动设置这里它会给你推荐适合你配置的模型也可以使用它推荐的模型。这里我们已经提前下载好了gemma4作为通用模型使用直接选择ollama然后选择对应模型即可继续下一步以下是各项设置的详细说明 1. LLM Provider: Ollama 含义你已经成功将 AnythingLLM 连接到了你电脑上运行的 Ollama 服务。 隐私说明这意味着你的大模型比如你之前下载的 Qwen2.5-Coder运行在你自己的电脑上。你的对话数据不会发送到 OpenAI、Google 或其他云端服务器完全留在本地。 2. Embedding Preference: AnythingLLM Embedder 含义Embedding嵌入是将你的文档PDF、TXT等转化为计算机能理解的数字向量的过程。 隐私说明这里选择了 AnythingLLM Embedder通常指使用内置的轻量级本地模型如 Transformer.js 实现的模型来处理文本。这意味着文档的分析和索引过程也是在本地完成的不会上传到云端。 3. Vector Database: LanceDB 含义LanceDB 是一个本地向量数据库。 隐私说明它负责存储你上传的文档数据和生成的向量。这里明确写着数据是 stored privately on this instance即数据就存在你这台电脑的硬盘里。运行成功后尝试使用本地模型去学习导入自己的知识库可以通过这个软件不断将你的知识喂给本地大模型打造属于你个人的私有知识库。结语本地化部署主要是企业应用需要保证数据及代码的安全企业可以承担更高规格的硬件。我们个人也可以使用消费级显卡做一些学习和使用希望可以和更多大佬一起交流学习。**附录 **本地大模型就署好了本文章主要介绍了如何对接AI编程以及如何搭建私有知识库有了本地大模型意味着你不需要为token付费了这样就可以更好的去养龙虾了 下一篇文章将介绍一下使用本地大模型养小龙虾

更多文章