别再只盯着K-Means了！用sklearn的轮廓系数（silhouette_score）帮你选出最佳聚类算法

张开发

• 2026/4/19 23:36:08 • 15 分钟阅读

分享文章

别再只盯着K-Means了！用sklearn的轮廓系数（silhouette_score）帮你选出最佳聚类算法

用轮廓系数为聚类算法打分从K-Means到DBSCAN的科学选择指南当面对一堆未标注的数据时很多人的第一反应是直接套用K-Means算法——这就像拿到食材只会做炒饭一样。但真实世界的数据分布千奇百怪有的像瑞士奶酪布满空洞适合DBSCAN有的像俄罗斯套娃层层嵌套适合层次聚类而K-Means只擅长处理那些团状分布的数据。本文将带你用sklearn的轮廓系数这把尺子量化评估不同聚类算法的表现用数据而非直觉做决策。1. 为什么需要轮廓系数去年我们团队处理用户行为数据时曾用K-Means强行将用户分成5个群体。上线后发现营销效果极差——原来算法把活跃用户和羊毛党混在了一起。后来用轮廓系数评估才发现这个数据集用谱聚类效果更好。这个教训告诉我们没有最好的算法只有最适合的评估方法。轮廓系数的精妙之处在于它同时考虑了两个维度凝聚度a(i)同簇样本间的紧密程度分离度b(i)样本与其他簇的疏远程度计算公式为s(i) (b(i) - a(i)) / max(a(i), b(i))这个值域在-1到1之间的指标能直观反映聚类质量分数区间含义实际问题0.7-1.0聚类效果优秀-0.5-0.7结构清晰但有待优化可能需要调整超参数0.3-0.5聚类结果勉强可用建议尝试其他算法0.3聚类效果不可信数据可能不适合聚类注意轮廓系数对凸形簇更敏感。当数据存在复杂流形结构时建议结合Calinski-Harabasz指数等指标综合评估2. 实战对比三大聚类算法让我们用经典的鸢尾花数据集演示如何科学选择算法。首先加载数据并预处理from sklearn.datasets import load_iris from sklearn.preprocessing import StandardScaler iris load_iris() X StandardScaler().fit_transform(iris.data)2.1 K-Means的局限与突破默认情况下人们会用肘部法则确定K值from sklearn.cluster import KMeans from sklearn.metrics import silhouette_score k_range range(2, 8) scores [] for k in k_range: kmeans KMeans(n_clustersk, random_state42) labels kmeans.fit_predict(X) scores.append(silhouette_score(X, labels))结果可能让你惊讶K值轮廓系数20.5830.4640.3950.35虽然真实类别数是3但K2时轮廓系数反而更高——这说明数据本身可能存在层级结构单纯增加簇数反而破坏自然分组。2.2 DBSCAN的密度魔法对于密度不均的数据试试DBSCANfrom sklearn.cluster import DBSCAN eps_values [0.3, 0.5, 0.7] min_samples [3, 5, 7] results [] for eps in eps_values: for min_s in min_samples: dbscan DBSCAN(epseps, min_samplesmin_s) labels dbscan.fit_predict(X) if len(set(labels)) 1: # 排除所有样本归为一类的情况 score silhouette_score(X, labels) results.append((eps, min_s, score))最佳参数组合可能产生0.62的轮廓系数比K-Means更优。但要注意当eps过大时所有样本会被归为同一类轮廓系数无效数据需要标准化否则密度计算会被量纲影响2.3 层次聚类的嵌套优势对于层级结构明显的数据层次聚类是更好的选择from sklearn.cluster import AgglomerativeClustering linkage [ward, complete, average] scores [] for link in linkage: agg AgglomerativeClustering(n_clusters3, linkagelink) labels agg.fit_predict(X) scores.append(silhouette_score(X, labels))结果对比连接方式轮廓系数特点ward0.51适合欧式空间complete0.49对异常值鲁棒average0.53平衡各维度影响3. 高级技巧与避坑指南3.1 样本级诊断工具silhouette_samples能定位问题样本from sklearn.metrics import silhouette_samples import numpy as np sample_scores silhouette_samples(X, labels) problem_samples np.where(sample_scores 0)[0] # 找出分配错误的样本我曾用这个方法发现某电商数据中高消费低频用户总是被错误归类。后来发现需要先对购买频率和金额做对数变换。3.2 可视化决策结合轮廓分析图更直观import matplotlib.pyplot as plt from sklearn.metrics import silhouette_samples def plot_silhouette(X, labels): n_clusters len(set(labels)) sample_scores silhouette_samples(X, labels) fig, ax plt.subplots(figsize(8, 6)) y_lower 10 for i in range(n_clusters): ith_cluster_scores sample_scores[labels i] ith_cluster_scores.sort() size ith_cluster_scores.shape[0] y_upper y_lower size ax.fill_betweenx(np.arange(y_lower, y_upper), 0, ith_cluster_scores, alpha0.7) ax.text(-0.05, y_lower 0.5 * size, str(i)) y_lower y_upper 10 ax.set_xlabel(Silhouette coefficient values) ax.set_ylabel(Cluster label) ax.axvline(xnp.mean(sample_scores), colorred, linestyle--)3.3 特殊数据结构的处理当遇到以下情况时需要特别处理高维数据先使用PCA降维再计算轮廓系数from sklearn.decomposition import PCA X_pca PCA(n_components0.95).fit_transform(X)非欧式数据改用适合的metric# 对于文本数据使用余弦相似度 silhouette_score(X, labels, metriccosine)超大样本量使用sample_size参数silhouette_score(X, labels, sample_size1000, random_state42)4. 超越轮廓系数多维度评估框架虽然轮廓系数很强大但明智的数据科学家会建立综合评估体系稳定性检验通过bootstrap采样观察聚类结果波动from sklearn.utils import resample stability_scores [] for _ in range(10): X_resampled resample(X) labels model.fit_predict(X_resampled) stability_scores.append(silhouette_score(X_resampled, labels))业务指标验证将聚类结果与业务KPI关联用户分群后的留存率差异商品类别的购买转化率算法组合策略先用DBSCAN去除噪声点再用K-Means聚类核心样本最后用轮廓系数评估混合效果在实际项目中我发现这样的组合往往能提升15-20%的轮廓系数。特别是在处理地理位置数据时先用DBSCAN识别城市中心区域再用K-Means细分商圈效果比单一算法好得多。

别再只盯着K-Means了！用sklearn的轮廓系数（silhouette_score）帮你选出最佳聚类算法

最新文章

保姆级教程：用U深度PE工具箱搞定Windows密码重置与分区调整（附虚拟机实战）

如何在Python中正确使用MongoDB事务

Redis如何验证主从心跳健康_理解主库发送PING与从库回复REPLCONF ACK机制

从RTL到GDSII：UPF文件在DC综合与ICC布局布线中的“变形记”与协同要点

深度学习深度前馈网络（一）—— 从 XOR 说起（二十三）

Skills生态全景解读：官方技能、用户分享、社区市场，一网打尽

推荐文章

【SAP Basis】从SU01出发：深度解析SAP用户类型与安全策略

3分钟掌握RPG Maker解密技巧：解锁游戏资源宝藏

终极编程语言图标库：50+高清开发标志一键获取

Colmap实战解析：从特征提取到鲁棒匹配的工程化实现

别再手动调音效了！用这5款Unity音频插件，让你的游戏音效瞬间‘活’起来

Ryujinx模拟器终极指南：免费在PC上畅玩Switch游戏的完整教程

相关文章

别再死记硬背MIPI状态转换图了！用Python脚本模拟单向/双向Data Lane状态机

HuggingFace模型下载终极优化：Autodl服务器上的国内镜像与断点续传技巧

Python EXE逆向解密深度解析：从加密打包到源码还原的完整流程

基于 Python 与 PyQt5 构建的特斯拉行车记录仪视频播放器

别再搞混了！PyTorch里CrossEntropyLoss和NLLLoss到底该用哪个？（附代码对比）

别再为Linux打印机驱动烦恼：foo2zjs开源驱动彻底解决兼容性问题

分享文章

更多文章

【AI Agent工程实战系列②】工具调用的正确姿势——不只是写个函数那么简单

从‘service mysqld status’报错说起：手把手教你排查和修复Linux服务管理的那些坑

哪个电台可以点歌送人？找对地方，心意用歌声温柔送达：语际点歌台

JavaScript中函数式编程中不可变性与闭包的关联

CSS圆角效果在低版本浏览器失效_使用PIE.htc行为与渐进增强

智慧工地反光衣识别工地人员行为监控工地安全区域施工人员识别施工人员佩戴规范识别yolo格式图像数据集第10290期

MetaboAnalystR 4.2：代谢组学数据分析的完整R包解决方案指南

蓝桥杯单片机CT107D开发板实战：手把手教你用DS18B20测温度（附完整代码）

从语言模型到机械臂控制器：AGI物理世界接入的3层协议栈重构（附ROS2-GPT网关开源实践）

当Air Florida 90号航班坠入波托马克河：用Elasticsearch+Kibana复盘一场‘非典型’空难的数据叙事

【Allegro 17.4 实战指南】布线后DRC检查与工艺优化全解析

PulseView解码CAN总线实战：从抓包数据到看懂汽车ECU通信报文