别再傻傻分不清了！用Kaggle比赛为例，彻底搞懂训练集、验证集和测试集

张开发

• 2026/4/18 2:01:17 • 15 分钟阅读

分享文章

从Kaggle实战拆解为什么你的模型总在关键时刻掉链子刚接触机器学习时我最困惑的不是算法原理而是一个看似简单的问题明明在本地测试准确率高达95%的模型为什么提交到Kaggle后排名直接跌出50%直到经历了三次比赛惨败才明白——数据集划分的认知偏差才是扼杀模型表现的隐形杀手。本文将以Titanic生存预测竞赛为例带你用代码和排行榜数据复盘一个完整参赛周期揭示训练集、验证集与测试集的本质区别。1. Kaggle竞赛中的数据集迷局打开任何Kaggle比赛页面你都会看到两个关键文件train.csv和test.csv。新手常犯的第一个致命错误就是直接使用全部训练数据建模然后在测试集上验证。这种做法的结果往往令人崩溃——本地评估指标与Public Leaderboard分数相差超过20%的情况比比皆是。Public Leaderboard的陷阱以Titanic比赛为例假设我们使用80%的训练数据建模剩下20%作为验证from sklearn.model_selection import train_test_split train_data pd.read_csv(train.csv) X_train, X_val, y_train, y_val train_test_split( train_data.drop(Survived, axis1), train_data[Survived], test_size0.2, random_state42 )当我们用这个验证集评估得到0.82的准确率时提交后的Public分数可能只有0.78。这是因为Public测试集约占全部测试数据的30%具有特定分布偏差模型可能在验证集上偶然表现良好尤其是当验证集规模较小时数据划分时的随机种子会显著影响结果稳定性提示永远不要根据Public Leaderboard分数反复调整模型这会导致对特定数据分布的过拟合。2. 验证集的正确打开方式真正的专业选手会在训练集中再划分出验证集形成三级数据架构数据集类型占比作用可见性训练集60-70%模型参数学习完全可见验证集15-20%超参数调优与模型选择仅评估时可见测试集15-20%最终性能评估完全不可见在Titanic案例中更稳健的做法是# 第一次划分分离测试集 X_temp, X_test, y_temp, y_test train_test_split( train_data.drop(Survived, axis1), train_data[Survived], test_size0.2, random_state42 ) # 第二次划分从剩余数据中分离验证集 X_train, X_val, y_train, y_val train_test_split( X_temp, y_temp, test_size0.25, # 占原始数据的20% random_state42 )这种划分方式下模型开发流程应该是在训练集上拟合不同算法如随机森林、XGBoost用验证集评估各模型表现选择最佳模型在完整训练数据训练集验证集上重新训练用测试集进行最终评估3. 交叉验证让每一份数据都说话当数据量有限时如医疗影像领域简单的单次划分可能无法反映真实性能。k折交叉验证通过数据轮转解决了这个问题from sklearn.model_selection import cross_val_score from sklearn.ensemble import RandomForestClassifier model RandomForestClassifier(n_estimators100) scores cross_val_score(model, X_temp, y_temp, cv5, scoringaccuracy) print(f平均准确率: {scores.mean():.3f} ± {scores.std():.3f})关键优势对比单次划分法计算成本低可能受划分偶然性影响适合大数据场景交叉验证法评估结果更稳定充分利用有限数据计算量随k值线性增长注意在时间序列数据中需要使用特殊的分块交叉验证方法避免未来信息泄露。4. 避开排行榜陷阱的实战策略经历过多次比赛后我总结了这些保命技巧策略一创建本地测试集从原始训练集中保留10%作为伪测试集确保其分布与比赛测试集尽可能相似只在最终阶段使用一次模拟Private Leaderboard策略二对抗Public榜过拟合设置多个随机种子验证模型稳定性比较Public分数与本地验证分数的差值差值过大意味着可能存在数据分布不匹配策略三交叉验证融合使用5折交叉验证训练多个模型将各折预测结果作为新特征这种方法在Tabular Playground系列赛中屡试不爽# 示例交叉验证生成元特征 from sklearn.model_selection import KFold kf KFold(n_splits5, shuffleTrue) meta_features np.zeros_like(y_temp, dtypefloat) for train_idx, val_idx in kf.split(X_temp): model.fit(X_temp.iloc[train_idx], y_temp.iloc[train_idx]) meta_features[val_idx] model.predict_proba(X_temp.iloc[val_idx])[:,1]真正的高手不是在Public榜上刷分而是确保模型在各种数据划分下都表现稳健。记住当Private Leaderboard揭晓时那些依赖Public榜过拟合的高手往往会跌得最惨。

更多文章

前端开发 2026/4/18 1:53:44

Python3 WebSocket实战：从基础连接到异步高并发，主流模块选型指南

1. WebSocket基础与Python模块选型指南第一次接触WebSocket时，我被它和HTTP的长轮询对比惊艳到了。想象一下咖啡馆里两个朋友的对话：HTTP就像每次问"有新消息吗？"都要重新打招呼，而WebSocket则是一次握手后就能持续聊天…

用Java手搓一个电影推荐系统：基于M-distance的协同过滤实战（附完整代码） 推荐系统已经成为现代互联网服务的核心组件之一，从电商平台到流媒体服务，个性化推荐无处不在。本文将带您从零开始，使用Java实现一个…

张开发

前端开发 2026/4/18 1:33:33

别再死记硬背口诀了！用串口调试助手+Python实时绘图，手把手教你调PID参数（附代码）

用Python串口工具实现PID参数可视化调试：告别经验主义调试PID控制器时，你是否也经历过这样的困境：反复修改参数却看不到系统响应的全貌，只能依靠模糊的"曲线漂浮绕大湾"等口诀来猜测调整方向？今天我们将彻底…

张开发

别再傻傻分不清了！用Kaggle比赛为例，彻底搞懂训练集、验证集和测试集

最新文章

炉石传说HsMod插件：55项功能深度解析与架构实现

【优化调度】基于matlab遗传算法GA大规模人工智能模型训练任务调度【含Matlab源码 15344期】

PDMS Pipeline Tool 实战排错指南：从错误代码到材料表生成

缠论插件终极指南：3步实现专业级K线结构可视化

增值税专用发票： 004机动车销售统一发票：005二手车销售统一发票：006增值税普通发票： 007增值税电子普通发票： 026增值税电子专用发票：028这几种发票的区别

企业如何用SaaS平台实现数字化转型？3步搭建高效管理体系的实战指南

推荐文章

龙虾白嫖指南，请查收~勘

AI Agent在金融科技领域的应用实践：风控、投顾与合规

Unity3D动画插件DoTween进阶应用与性能优化指南

超表面贝塞尔光束生成系统代码功能深度解析

【5G系列】深入解析NAS层UAC：Access Identity与Access Category的获取机制

Spring with AI (): 搜索扩展——向量数据库与RAG(下)肺

相关文章

别再死记硬背MIPI状态转换图了！用Python脚本模拟单向/双向Data Lane状态机

HuggingFace模型下载终极优化：Autodl服务器上的国内镜像与断点续传技巧

Python EXE逆向解密深度解析：从加密打包到源码还原的完整流程

基于 Python 与 PyQt5 构建的特斯拉行车记录仪视频播放器

别再搞混了！PyTorch里CrossEntropyLoss和NLLLoss到底该用哪个？（附代码对比）

别再为Linux打印机驱动烦恼：foo2zjs开源驱动彻底解决兼容性问题

分享文章

更多文章

Python3 WebSocket实战：从基础连接到异步高并发，主流模块选型指南

Java 常见 Map 对比总结：HashMap、LinkedHashMap、TreeMap、ConcurrentHashMap

智能手表应用开发全栈指南：从界面到蓝牙通信的深度实践

K8s 集群安全加固措施

聚类怎么做：SPSSAU软件操作步骤与结果解读

Chapter 11: Physical Layer - Logical (Gen1 and Gen2)

新概念英语第二册03_Please send me a card

小晓AI标书精灵构建企业级招投标智能体：基于Spring AI与LangGraph的架构实践

杀疯了！Claude Opus 4.7 突袭发布，多项能力登顶第一

多模态测试智能体AUITestAgent

用Java手搓一个电影推荐系统：基于M-distance的协同过滤实战（附完整代码）

别再死记硬背口诀了！用串口调试助手+Python实时绘图，手把手教你调PID参数（附代码）