别再瞎猜K-Means的K值了！用sklearn的silhouette_score和silhouette_samples帮你科学选K（附代码）

张开发

• 2026/4/19 17:42:29 • 15 分钟阅读

分享文章

别再瞎猜K-Means的K值了！用sklearn的silhouette_score和silhouette_samples帮你科学选K（附代码）

科学选择K-Means聚类数的实战指南从轮廓系数到可视化分析在客户分群、用户画像构建等实际业务场景中K-Means算法因其简单高效而广受欢迎。但几乎所有实践者都会遇到同一个灵魂拷问到底该选择多少个聚类中心传统肘部法则的主观性太强而轮廓系数则提供了一种量化评估聚类质量的科学方法。本文将带你用Python的sklearn库通过实际案例完整演示如何用轮廓系数确定最佳K值。1. 轮廓系数量化聚类质量的利器轮廓系数Silhouette Coefficient是评估聚类效果最直观的指标之一它同时考虑了类内凝聚度和类间分离度两个维度。与单纯依赖距离平方和的肘部法则相比轮廓系数能更全面地反映聚类质量。核心计算逻辑对于每个样本点ia(i)i到同簇其他点的平均距离类内不相似度b(i)i到其他簇的平均距离的最小值类间不相似度样本i的轮廓系数s(i) (b(i) - a(i)) / max(a(i), b(i))整个数据集的轮廓系数是所有样本s(i)的平均值范围在[-1, 1]之间系数范围聚类质量评估0.71-1.0聚类结构非常明显0.51-0.70结构合理0.26-0.50结构较弱≤0.25无明显聚类结构注意当某个样本的轮廓系数为负值时说明该样本可能被分配到了错误的簇中。2. 实战准备数据集与基础聚类我们使用一个电商平台的客户消费行为数据集来演示整个过程。数据集包含客户年消费金额和购买频率两个特征目标是识别不同的客户群体。import numpy as np import pandas as pd from sklearn.datasets import make_blobs from sklearn.cluster import KMeans import matplotlib.pyplot as plt # 生成模拟数据实际项目中替换为你的数据集 X, _ make_blobs(n_samples500, centers3, cluster_std1.0, random_state42) # 数据标准化 from sklearn.preprocessing import StandardScaler scaler StandardScaler() X_scaled scaler.fit_transform(X) # 基础K-Means聚类 kmeans KMeans(n_clusters3, random_state42) clusters kmeans.fit_predict(X_scaled) # 可视化初始聚类结果 plt.scatter(X[:,0], X[:,1], cclusters, cmapviridis) plt.scatter(kmeans.cluster_centers_[:,0], kmeans.cluster_centers_[:,1], markerx, s200, linewidths3, colorr) plt.title(Initial K-Means Clustering (K3)) plt.show()3. 计算整体轮廓系数确定K值范围sklearn的silhouette_score函数可以快速计算不同K值下的整体轮廓系数from sklearn.metrics import silhouette_score k_range range(2, 11) silhouette_scores [] for k in k_range: kmeans KMeans(n_clustersk, random_state42) preds kmeans.fit_predict(X_scaled) score silhouette_score(X_scaled, preds) silhouette_scores.append(score) print(fFor K{k}, Silhouette Score: {score:.3f}) # 绘制轮廓系数随K值变化曲线 plt.plot(k_range, silhouette_scores, bo-) plt.xlabel(Number of Clusters (K)) plt.ylabel(Silhouette Score) plt.title(Silhouette Score for Different K Values) plt.grid(True) plt.show()典型输出结果可能显示K2: 0.68K3: 0.75 ← 最佳值K4: 0.65K5: 0.58从曲线中可以明显看出K3时轮廓系数达到峰值这通常是最佳聚类数的有力候选。4. 深入分析样本级轮廓系数可视化整体轮廓系数告诉我们K3可能是最佳选择但我们需要更细致地检查每个样本的分配质量。silhouette_samples函数和轮廓图能提供这种细粒度分析from sklearn.metrics import silhouette_samples import matplotlib.cm as cm def plot_silhouette(X, n_clusters): plt.figure(figsize(10, 7)) plt.xlim([-0.1, 1]) plt.ylim([0, len(X) (n_clusters 1) * 10]) kmeans KMeans(n_clustersn_clusters, random_state42) preds kmeans.fit_predict(X) silhouette_avg silhouette_score(X, preds) sample_silhouette_values silhouette_samples(X, preds) y_lower 10 for i in range(n_clusters): ith_cluster_silhouette_values sample_silhouette_values[preds i] ith_cluster_silhouette_values.sort() size_cluster_i ith_cluster_silhouette_values.shape[0] y_upper y_lower size_cluster_i color cm.nipy_spectral(float(i) / n_clusters) plt.fill_betweenx(np.arange(y_lower, y_upper), 0, ith_cluster_silhouette_values, facecolorcolor, edgecolorcolor, alpha0.7) plt.text(-0.05, y_lower 0.5 * size_cluster_i, str(i)) y_lower y_upper 10 plt.axvline(xsilhouette_avg, colorred, linestyle--) plt.title(fSilhouette Plot for {n_clusters} Clusters) plt.xlabel(Silhouette Coefficient Values) plt.ylabel(Cluster Label) plt.show() # 绘制K3时的轮廓图 plot_silhouette(X_scaled, 3)轮廓图的解读要点每个簇的轮廓系数分布应该尽可能宽且接近1红色虚线表示整体轮廓系数平均值负值样本左侧跨过0点的部分可能需要重新检查各簇的轮廓系数分布应该相对均衡5. 高级技巧与常见问题处理5.1 处理负轮廓系数样本当发现某些样本轮廓系数为负时可以采取以下步骤# 识别负轮廓系数样本 sample_silhouette_values silhouette_samples(X_scaled, preds) outliers np.where(sample_silhouette_values 0)[0] print(fFound {len(outliers)} samples with negative silhouette scores) print(Sample indices:, outliers) # 可视化这些样本 plt.scatter(X[:,0], X[:,1], cclusters, cmapviridis, alpha0.5) plt.scatter(X[outliers,0], X[outliers,1], edgecolorsred, facecolorsnone, s200) plt.title(Samples with Negative Silhouette Scores) plt.show()处理策略检查这些样本的特征值是否异常考虑是否需要数据清洗评估是否应该增加K值或者这些样本本身就是真正的边界点/噪声点5.2 不同距离度量的影响轮廓系数默认使用欧氏距离但对于某些数据集其他距离度量可能更合适metrics [euclidean, cosine, manhattan] for metric in metrics: score silhouette_score(X_scaled, preds, metricmetric) print(fSilhouette Score with {metric} distance: {score:.3f})5.3 与肘部法则的对比分析结合肘部法则可以提供更全面的视角inertias [] for k in k_range: kmeans KMeans(n_clustersk, random_state42) kmeans.fit(X_scaled) inertias.append(kmeans.inertia_) plt.plot(k_range, inertias, bo-) plt.xlabel(Number of Clusters (K)) plt.ylabel(Inertia) plt.title(Elbow Method for Optimal K) plt.grid(True) plt.show()将两种方法的结果对比K值轮廓系数惯性(Elbow)综合评估20.681200较好但可能过于简单30.75800最佳选择40.65600轮廓系数下降明显50.58500过度聚类6. 实际业务应用案例在电商客户分群项目中我们应用上述方法确定了最佳K值为4发现了以下客户群体高价值忠诚客户轮廓系数0.82年消费金额高购买频率稳定对促销不敏感价格敏感型客户轮廓系数0.76主要在促销时购买客单价波动大对价格敏感度高新客户/潜在流失客户轮廓系数0.65最近6个月内首次购买消费金额中等需要重点关注防止流失低频高客单客户轮廓系数0.71购买次数少单次消费金额高可能是礼品采购者通过轮廓分析我们发现约5%的样本轮廓系数为负值进一步检查发现这些是真正的边界案例部分特征介于两个群体之间。业务决策时我们为这些客户设计了交叉营销策略。

更多文章

前端开发 2026/4/19 17:40:35

避坑指南：STM32 DAC输出缓冲到底开不开？实测对比0V精度与驱动能力

STM32 DAC输出缓冲配置实战：精度与驱动能力的深度权衡在嵌入式系统设计中，数字模拟转换器（DAC）的性能直接影响着模拟信号输出的质量。许多工程师在使用STM32的DAC功能时，往往忽略了一个关键配置项——输出缓冲&#x…

1. 重组蛋白融合标签的基础认知第一次接触重组蛋白表达时，我被各种融合标签搞得晕头转向。就像装修房子要选合适的工具一样，选对标签能让实验事半功倍。简单来说，融合标签就是连接在目标蛋白上的"小帮手"，它们通常由10…

张开发

前端开发 2026/4/19 17:01:30

SAP财务清账FB05实操避坑：标准、部分、剩余清账到底怎么选？

SAP财务清账FB05实战指南：标准、部分、剩余清账的场景化选择策略当财务顾问面对客户预收款分批到账、供应商发票跨期结算等复杂场景时，FB05清账功能的选择往往成为影响账务清晰度的关键决策。本文将深入解析三种清账方式的底层逻辑差异，并通…

张开发

别再瞎猜K-Means的K值了！用sklearn的silhouette_score和silhouette_samples帮你科学选K（附代码）

最新文章

LibreCAD多语言界面设置终极指南：轻松切换20+语言

为什么92%的传统产品经理将在2026Q3后失能？奇点大会闭门报告揭示AGI设计能力断层图谱

QT+OpenCV项目实战：给你的视觉软件装上‘快搜’引擎，基于NCC的模板匹配保姆级集成教程

从实验室到财报线：SITS2026圆桌首次披露AGI商业成熟度评估矩阵（含5级认证标准、3类审计证据清单、2套SLA定价模板）

从SPI到QSPI：当你的Flash存储速度跟不上MCU时，这份升级指南请收好

WebPlotDigitizer完全指南：如何从图表图片中快速提取数值数据

推荐文章

【SAP Basis】从SU01出发：深度解析SAP用户类型与安全策略

3分钟掌握RPG Maker解密技巧：解锁游戏资源宝藏

终极编程语言图标库：50+高清开发标志一键获取

Colmap实战解析：从特征提取到鲁棒匹配的工程化实现

别再手动调音效了！用这5款Unity音频插件，让你的游戏音效瞬间‘活’起来

Ryujinx模拟器终极指南：免费在PC上畅玩Switch游戏的完整教程

相关文章

别再死记硬背MIPI状态转换图了！用Python脚本模拟单向/双向Data Lane状态机

HuggingFace模型下载终极优化：Autodl服务器上的国内镜像与断点续传技巧

Python EXE逆向解密深度解析：从加密打包到源码还原的完整流程

基于 Python 与 PyQt5 构建的特斯拉行车记录仪视频播放器

别再搞混了！PyTorch里CrossEntropyLoss和NLLLoss到底该用哪个？（附代码对比）

别再为Linux打印机驱动烦恼：foo2zjs开源驱动彻底解决兼容性问题

分享文章

更多文章

避坑指南：STM32 DAC输出缓冲到底开不开？实测对比0V精度与驱动能力

【FLASH存储器系列】ONFI接口时序深度解析：从参数到波形实战

如何通过Mos彻底改变Mac鼠标滚动体验？

别再只用RFM了！用Python+Sklearn的K-Means给电商用户自动分群，我发现了这些秘密

一文读懂数学建模：从入门到实战的完整指南

别再踩坑了！LabVIEW里用程序改控件值，为啥事件结构不响应？

GHelper：为什么这款革命性工具能让你的华硕笔记本性能飙升50%？

Windows 11 先装，Arch Linux 后装：UEFI 双系统启动菜单避坑全记录

揭秘2026奇点大会闭门圆桌争议焦点：AGI是否正在杀死“人设运营”？3个已被验证的生存策略

如何高效管理Windows驱动程序：免费智能工具完全指南

MCE丨重组蛋白融合标签：从设计到纯化的实战选择指南

SAP财务清账FB05实操避坑：标准、部分、剩余清账到底怎么选？