山东大学软件学院创新实训开发日志1-数据库选型

张开发

• 2026/4/17 16:18:20 • 15 分钟阅读

分享文章

本周我主要针对数据库选型做了研究工作。首先看我们的业务需要不仅包括账密登录、用户信息这些结构化数据还包括非结构化数据如带有 ABCD 选项的单选题、长文本解析、错题本之后还需要做RAG增强检索、构建知识图谱、接入大模型实现智能答疑等。此前的课程设计经验中比较熟悉的是MySQL但如果无脑MySQL注定会在后期的 AI 接入和复杂查询中遭遇严重的性能瓶颈和架构重构众所周知错误发现的越迟纠正错误的成本越高于是我首先谨慎地对数据库选型做了一些研究。一、关系型数据库选型为了实现用户信息存储、做题记录等业务逻辑我们首先需要一个关系型数据库。在参考了一些技术博客和github上的项目之后准备在PostgreSQL和MySQL中二选一。一开始准备用PostgreSQL主要是因为之后要做RAG需要用到向量检索而Postgre有个扩展插件pgvector可以支持我们对于向量数据库的需求。但之后发现pgvector来单独当作一个向量数据库还是有不妥详见下文于是转入单纯比较Postgre和MySQL。1.首先由于我们要存储408题库对于选择题的答案存储其实是非结构化的。Postgre和MySQL都能支持json格式下图是MySQL数据类型选择页面json格式极大程度上满足了我们的需求不同点在于MySQL对于json格式的数据操作功能比较有限主要是可以提取、更新json数据中的值例如 JSON_EXTRACT() 函数可以提取json文档中指定路径的值JSON_SET() 函数可以更新json文档中的值而Postgre则提供了更强大的处理功能不过实际业务上MySQL针对json数据的操作已经够用了。2.其次在使用成本上MySQL相对Postgre架构更简单使用起来更容易上手而且我们团队也比较熟悉Postgre虽然有众多的特性和功能但需要具备更高的技术水平和经验而且配置参数多对服务器硬件资源比如内存、CPU要求可能更高它的使用场景是地理信息系GIS、企业资源规划ERP、金融系统等这些对复杂查询、数据一致性有高要求的企业级应用。3.综合考量之下最终还是选择了MySQL。二、向量数据库主要是pgvector和ChromaDB的二选一。我们使用向量数据库主要是为了实现RAG。1.pgvector是Postgre的插件如果使用它的话可以省去维护两个独立数据库可能造成数据不一致风险等麻烦。但仔细阅读技术博客后发现pgvector其实不能看作一个独立的向量数据库它只是把向量当作了一种字段类型让向量检索融入了SQL体系它更适合做带负责业务条件的语义检索。pgvector做的是内容检索一个内容检索系统通常至少包含向量、状态过滤、分类、排序、分页等它把搜索逻辑转到了应用层我们要在应用层写if/for代码造成代码复杂、难以维护等根本不适合做纯向量数据库。2.而Chroma是向量数据库它是为RAG检索增强生成而生的Chroma更适合RAG/LLM问答、纯语义召回这些场景而且查询模式非常简单TopK。这与我们的任务目标完全匹配。3.综上所述我们选择了ChromaDB。说回前面Postgre显然就失去了当初考虑它的最大优势。三、缓存对于408历年经典必考真题短时间内会有大量重复查询。引入Redis可以将这些高频数据的读取从磁盘 I/O 转移到内存极大减轻MySQL 的压力。缓存选择了Redis。但过早优化是大忌所以打算前期先不用Redis待到项目中后期再引入。四、图数据库后续计划构建408知识图谱需要引入图数据库将知识点作为节点Nodes将依赖关系作为边Relationships。这里选择了经典图数据库Neo4j。

更多文章

前端开发 2026/4/13 16:30:28

避坑指南：PCIe 4.0/5.0设备升级后链路不稳？可能是Recovery均衡训练没搞对

PCIe 4.0/5.0设备升级避坑指南：Recovery均衡训练实战解析当你为服务器换上最新的PCIe 4.0 SSD，或为工作站安装RTX 40系列显卡后，是否遇到过系统不稳定、偶发掉盘或性能不达预期的情况？这类问题往往源于从PCIe 3.0向更高世代升级时…

终于熬过了无数轮技术面和行为面，手里捏着一份薪资翻倍、Title 更好的新 Offer。正准备潇洒提离职时，很多留学生却突然冷汗直冒：想起来入职第一天，自己曾懵懂地签过一份几十页的入职文件，里面赫然写着“竞业禁止协议”…

张开发

前端开发 2026/4/13 16:20:36

WPF Prism （二）：依赖注入与模块化设计

1. 依赖注入：Prism框架的"万能胶水" 第一次接触Prism框架时，最让我眼前一亮的不是MVVM，而是它优雅的依赖注入(DI)设计。想象你正在组装一台电脑：CPU、内存、硬盘这些组件不需要自己焊接，只需要按照接口规格插…

张开发

山东大学软件学院创新实训开发日志1-数据库选型

最新文章

用Python玩转‘生命游戏’进阶版：Gray-Scott模型生成动态艺术斑图（参数f/k可视化实验指南）

PHP vs C++ vs 易语言：编程语言终极对比

CSS如何实现输入框禁用样式_使用-disabled伪类设定

自定义的TCP加密通信协议

【12.MyBatis源码剖析与架构实战】15.2 if和where标签执⾏过程剖析-执⾏数据库操作

SQLAlchemy进阶：高级特性与性能优化

推荐文章

龙虾白嫖指南，请查收~勘

AI Agent在金融科技领域的应用实践：风控、投顾与合规

Unity3D动画插件DoTween进阶应用与性能优化指南

超表面贝塞尔光束生成系统代码功能深度解析

【5G系列】深入解析NAS层UAC：Access Identity与Access Category的获取机制

Spring with AI (): 搜索扩展——向量数据库与RAG(下)肺

相关文章

别再死记硬背MIPI状态转换图了！用Python脚本模拟单向/双向Data Lane状态机

HuggingFace模型下载终极优化：Autodl服务器上的国内镜像与断点续传技巧

Python EXE逆向解密深度解析：从加密打包到源码还原的完整流程

基于 Python 与 PyQt5 构建的特斯拉行车记录仪视频播放器

别再搞混了！PyTorch里CrossEntropyLoss和NLLLoss到底该用哪个？（附代码对比）

别再为Linux打印机驱动烦恼：foo2zjs开源驱动彻底解决兼容性问题

分享文章

更多文章

避坑指南：PCIe 4.0/5.0设备升级后链路不稳？可能是Recovery均衡训练没搞对

DeepSeek-OCR-2入门实战：从零开始，搭建你的第一个OCR应用

ExDark低光照数据集：夜间视觉AI开发的终极解决方案

【生命科学竞赛代码分享】表观遗传时钟分析：基于表观遗传年龄加速（EAA）分组的粪便菌群（宏基因组测序）差异分析

为什么选择gin？

向量数据库已经能检索了，为什么 LangChain 还要设计 Retriever

软件设计师实战：数据流图的平衡原则与分层技巧

我用两大插件，盘活了上千条 Obsidian 笔记

Janus-Pro-7B“视觉翻译官”效果：实时将外语菜单转换为图文详解

避坑指南：Arcgis极地投影常见5大错误（附正确Asia_Lambert参数对照表）

留学生离职必看：前东家的“竞业协议”（Non-Compete）真的会限制你的未来吗？

WPF Prism （二）：依赖注入与模块化设计