AI学习之私有化部署本地大模型-ollama+qwen3

张开发

• 2026/4/20 2:46:28 • 15 分钟阅读

分享文章

引言背景网上可用的免费大模型挺多的为啥还要自己部署呢最近用了一些免费的AI编程工具体验感一般又试了些花钱的编程模型质量确实不一样但是烧钱也很快。所以我就想尝试再本地部署一套大模型先学习下这个过程让自己再无token焦虑~核心挑战钱包优秀的大模型太吃显存了我现在手上只有的8G的显卡的只能先跑下大模型部署流程简单用一用这个模型智商可能还不如一些免费的主要师体验流程啦~~本文目标我也是最近才开始正式研究AI 的这篇文章也是记录下我学习的过程顺便给同样在学习阶段的朋友一些参考第一部分需求分析与选型1.1 明确目标与场景* 具体应用场景代码助手从架构设计到编程部署知识问答理财分析文章输出。 * 期望模型具备的核心能力目前主要师编程创意文案生成。 * 性能要求响应速度、并发能力、精度。1.2 模型选择与考量选模型不必要纠结先基于硬件筛选然后可以下载多个针对优化的不同大模型切换使用模型的选择大家可以参考下这个网站输入自己的显卡型号以及可以分给AI的剩余内存看看推荐你设备运行的大模型有哪些然后再去下载对应的大模型链接: https://whatmodelscanirun.com/此时此刻非常后悔当初没有直接买16G显存版本现在只能跑7B量化模型16G可以跑20B以上的模型智商更在线也可以把你电脑的配置喂给AI 让AI 给你推荐一些模型这里我优先考虑编程所以先选择了Qwen2.5-Coder-7B-Instruct模型。需求场景建议模型类型推荐模型 (基于8G显存)适配情况AI编程助手代码专用模型Qwen2.5-Coder-7B-Instruct3.5版本更强估计马上也要发布了8G显存跑 7B 代码模型是最成熟的方案速度飞快理财量化、交易信息通用指令模型Qwen3-8BQwen3 8B 在 MMLU 79 分逻辑推理足够分析财经文本。微信小红书文案中文优化模型Qwen2.5-7B-Instruct文笔流畅但 7B 模型有时会略显空洞需配合较好 Prompt。专业知识学习、职业规划大参数模型Nemotron Nano 12B12B 模型会吃掉 6-7G 显存上下文一长超 16K必定溢出到系统内存导致思考变慢第二部分环境准备与模型获取2.1 操作系统与基础环境* 推荐linux 我先使用Windows玩玩电脑是Windows11 * 基础依赖安装这里就不提了2.2关键工具Ollama一个开源的大型语言模型(LLM)平台,旨在让用户能够轻松地在本地运行、管理和与大型语言模型进行交互。下载链接: https://ollama.com/download/windows下载完成后启动cmd命令行获取大模型下载速度就不一定了ollama run Qwen2.5-Coder 7B几分钟等待后下载完成ollama list 可以看到已经安装的大模型安装完成后使用ollama界面进行提问代码输出速度还可以显卡也是燃起来了又问了下开放性问题因为这个模型是针对编码加强的所以开发问题回答的逻辑不如免费版本的千问效果好就不展示了下面开始把这个编码大模型接入到编码工具中。PS还有个下载方式直接在ollama中找到适合自己配置的模型直接下载即可第三部分本地模型接入编码工具**3.1 编码工具插件安装下载Continue 插件可以配置自定义的AI源进入 Continue配置–选择local—选择ollama 在选择自己下载的大模型点击connect之后生成配置文件可以通过配置文件添加已安装的大模型。成功使用接下来就可以使用本地大模型进行AI编程了第四部分专业知识学习搭建本地RAG知识库**工具组合Ollama AnythingLLM实现方式用Ollama加载任何本地模型如你已部署的Coder模型再用AnythingLLM连接它把你的学习笔记、PDF文档等喂给它基础依赖安装这里就不提了第 1 步安装 AnythingLLM访问网址直接下载即可链接: https://anythingllm.com运行安装程序下一步*注意不要把东西安装到C盘*安装成功后开始使用选择手动设置这里它会给你推荐适合你配置的模型也可以使用它推荐的模型。这里我们已经提前下载好了gemma4作为通用模型使用直接选择ollama然后选择对应模型即可继续下一步以下是各项设置的详细说明 1. LLM Provider: Ollama 含义你已经成功将 AnythingLLM 连接到了你电脑上运行的 Ollama 服务。隐私说明这意味着你的大模型比如你之前下载的 Qwen2.5-Coder运行在你自己的电脑上。你的对话数据不会发送到 OpenAI、Google 或其他云端服务器完全留在本地。 2. Embedding Preference: AnythingLLM Embedder 含义Embedding嵌入是将你的文档PDF、TXT等转化为计算机能理解的数字向量的过程。隐私说明这里选择了 AnythingLLM Embedder通常指使用内置的轻量级本地模型如 Transformer.js 实现的模型来处理文本。这意味着文档的分析和索引过程也是在本地完成的不会上传到云端。 3. Vector Database: LanceDB 含义LanceDB 是一个本地向量数据库。隐私说明它负责存储你上传的文档数据和生成的向量。这里明确写着数据是 stored privately on this instance即数据就存在你这台电脑的硬盘里。运行成功后尝试使用本地模型去学习导入自己的知识库可以通过这个软件不断将你的知识喂给本地大模型打造属于你个人的私有知识库。结语本地化部署主要是企业应用需要保证数据及代码的安全企业可以承担更高规格的硬件。我们个人也可以使用消费级显卡做一些学习和使用希望可以和更多大佬一起交流学习。**附录 **本地大模型就署好了本文章主要介绍了如何对接AI编程以及如何搭建私有知识库有了本地大模型意味着你不需要为token付费了这样就可以更好的去养龙虾了下一篇文章将介绍一下使用本地大模型养小龙虾

更多文章

前端开发 2026/4/20 2:39:00

2026年梧州市代运营引流获客：定义、流程与团队选择标准百科解读

进入2026年，梧州实体商业的竞争格局已发生深刻变化。线上流量入口进一步分散与智能化，本地生活服务平台的算法规则持续迭代，单纯依靠线下自然客流或零散的线上推广，已难以支撑门店的稳健增长。在此背景下，“代运营引流…

张开发

前端开发 2026/4/20 2:38:18

Spring Boot项目里遇到Tomcat报RFC 7230/3986错误？别慌，教你两招搞定URL特殊字符问题

Spring Boot项目中Tomcat报RFC 7230/3986错误的实战解决方案最近在调试一个商品管理接口时，突然遇到后台报错：Invalid character found in the request target. The valid characters are defined in RFC 7230 and RFC 3986。这个错误看似晦涩&#xff…

张开发

前端开发 2026/4/20 2:33:39

终极指南：专业级AMD Ryzen调试工具SMUDebugTool深度解析与实战应用

终极指南：专业级AMD Ryzen调试工具SMUDebugTool深度解析与实战应用【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table. 项目地址…

张开发

前端开发 2026/4/20 2:32:39

第一章：2026奇点智能技术大会：AGI与物流管理 2026奇点智能技术大会(https://ml-summit.org) AGI驱动的动态物流决策中枢在2026奇点智能技术大会上，多家头部物流企业联合发布了基于自主推理架构（Autonomous Reasoning Architect…

张开发

AI学习之私有化部署本地大模型-ollama+qwen3

最新文章

在国产麒麟系统上，手把手教你离线搞定osg3.4.0和osgEarth2.9的编译（附完整依赖包）

Vue3 监听器 watch 怎么监听 Pinia 中的状态？跨模块联动开发教程

CLIP-GmP-ViT-L-14效果展示：同一张图在不同语义层级（物体/属性/关系）的排序对比

【若依框架深度定制】从零到一：打造企业级Vue后台管理系统的专属UI风格

Node-RED实战：从零构建轻量级MQTT Broker

DeepMind的哲学家其人及研究方向

推荐文章

【SAP Basis】从SU01出发：深度解析SAP用户类型与安全策略

3分钟掌握RPG Maker解密技巧：解锁游戏资源宝藏

终极编程语言图标库：50+高清开发标志一键获取

Colmap实战解析：从特征提取到鲁棒匹配的工程化实现

别再手动调音效了！用这5款Unity音频插件，让你的游戏音效瞬间‘活’起来

Ryujinx模拟器终极指南：免费在PC上畅玩Switch游戏的完整教程

相关文章

别再死记硬背MIPI状态转换图了！用Python脚本模拟单向/双向Data Lane状态机

HuggingFace模型下载终极优化：Autodl服务器上的国内镜像与断点续传技巧

Python EXE逆向解密深度解析：从加密打包到源码还原的完整流程

基于 Python 与 PyQt5 构建的特斯拉行车记录仪视频播放器

别再搞混了！PyTorch里CrossEntropyLoss和NLLLoss到底该用哪个？（附代码对比）

别再为Linux打印机驱动烦恼：foo2zjs开源驱动彻底解决兼容性问题

分享文章

更多文章

2026年梧州市代运营引流获客：定义、流程与团队选择标准百科解读

Spring Boot项目里遇到Tomcat报RFC 7230/3986错误？别慌，教你两招搞定URL特殊字符问题

终极指南：专业级AMD Ryzen调试工具SMUDebugTool深度解析与实战应用

生产环境如何安全兼容从备份中提取单表数据_跨版本数据恢复方案

STM32 HAL库中断里用HAL_Delay卡死？一个优先级设置帮你搞定（附CubeMX配置）

Untrunc终极指南：三步修复损坏MP4/MOV视频的完整教程

VLN 与世界模型的关系

如何在Mac上免费解锁百度网盘SVIP下载速度：终极加速指南

python checkov

为什么92.4%的AGI对话系统在多跳推理中崩溃？——基于17个真实金融/医疗场景的失败根因分析

客户反馈闭环体系怎么搭？6 个模块讲透流程设计思路

【AGI物流落地倒计时】：为什么2026年Q2成为企业接入自主决策物流AI的最后窗口期？