模型和算法篇（二）无监督学习

张开发

• 2026/4/20 22:37:07 • 15 分钟阅读

分享文章

在无监督学习中聚类和降维是两种最常见的算法不过它们应用场景很不一样。聚类我们说过了主要可以用来做分组而降维则是通过数学变换将原始高维属性空间转变为一个低维“子空间”它本质上是通过最主要的几个特征维度实现对数据的描述。聚类算法可以让机器把数据集中的样本按照特征的性质分组不过它只是帮我们把数据特征彼此邻近的用户聚成一组这里的组称为聚类的簇。而这里说的“特征彼此邻近”指的这些用户的数据特征在坐标系中有更短的向量空间距离。也就是说聚类算法是把空间位置相近的特征数据归为同一组。聚类算法本身并不知道哪一组用户是高价值哪一组用户是低价值。分完组之后我们还要根据机器聚类的结果人为地给这些用户组贴标签看看哪一组价值高哪一组价值低。我这里把这种人为贴标签的过程称为“聚类后概念化”。一、聚类算法——K-MeansK- 均值算法这个算法不仅简洁而且效率也高是我们最常用的聚类算法。像文档归类、欺诈行为检测、用户分组等等这些场景我们往往都能用到。在 K-Means 算法中“K”是一个关键。K 代表聚类的簇也就是组的个数。比如说我们想把 M 值作为特征将用户分成 3 个簇即高、中、低三个用户组那这里的 K 值就是 3并且需要我们人工指定。指定 K 的数值后K-Means 算法会在数据中随机挑选出 K 个数据点作为簇的质心centroid这些质心就是未来每一个簇的中心点算法会根据其它数据点和它的距离来进行聚类。挑选出质心后K-Means 算法会遍历每一个数据点计算它们与每一个质心的距离比如欧式距离。数据点离哪个质心近就跟哪个质心属于一类。遍历结束后每一个质心周围就都聚集了很多数据点这时候啊算法会在数据簇中选择更靠近中心的质心如果原来随机选择的质心不合适就会让它下岗。在整个聚类过程中为了选择出更好的质心“挑选质心”和“遍历数据点与质心的距离”会不断重复直到质心的移动变化很小了或者说固定不变了那 K-Means 算法就可以停止了。我们前面说 K 值需要人工指定那怎么在算法的辅助下确定 K 值呢手肘法选取 K 值其实在事先并不是很确定分成多少组比较合适的情况下“手肘法”elbow method可以帮我们决定在某一批数据点中数据分为多少组比较合适。手肘法是通过聚类算法的损失值曲线来直观确定簇的数量。损失值曲线就是以图像的方法绘出取每一个 K 值时各个数据点距离质心的平均距离。如下图所示当 K 取值很小的时候整体损失很大也就是说各个数据点距离质心的距离特别大。而随着 K 的增大损失函数的值会在逐渐收敛之前出现一个拐点。此时的 K 值就是一个比较好的值。你看图中损失随着簇的个数而收敛的曲线大概像个手臂最佳 K 值的点像是一个手肘这就是为什么我们会叫它“手肘法”的原因。

模型和算法篇（二）无监督学习

最新文章

Open Images Dataset 终极指南：从入门到实战的10个核心技巧

从DAC0832芯片引脚看数模转换：ILE、WR这些信号到底怎么控制波形输出？

如何快速掌握NVMe设备管理：系统管理员的完整指南

Objectron与NeRF结合：前沿3D重建技术的完整实践指南

分库分表策略：宠友IM源码中的聊天数据水平扩展实践

YOLO5Face实时人脸检测：深度解析与实战应用指南

推荐文章

《前沿洞察：AI 面试季、Agent 开发痛点与人机协作架构的未来》

别再插错线了！一张图看懂USB 2.0/3.0线序与颜色定义（附ZYNQ开发板实测）

别再只靠复位了！Xilinx FIFO IP核清空的三种实战方法（附Verilog代码）

如何在 CGO 中正确处理带 const char- 参数的 C 回调函数

JavaScript的Symbol.unscopables：影响with语句行为的属性

一次由Nginx的proxy_pass尾随斜杠引发的重定向循环

相关文章

如何为AMD 780M APU解锁2-3倍AI性能？ROCmLibs-for-gfx1103终极优化指南

企业内网必看：用U盘搞定Ubuntu服务器Docker离线部署（含依赖树分析）

OpenCode智能编程助手全面部署指南：从环境搭建到高级应用

大语言模型背后的秘密：从预训练到微调，揭秘LLM高效训练的核心技术（含QLoRA/ZeRO实战）

RBDdimmer：嵌入式AC相位调光库详解

新手零失败指南：利用快马ai轻松完成openclaw的ubuntu环境搭建

分享文章

更多文章

告别代码阅读疲劳：Source Code Pro编程字体让你的编程体验提升50%

玩转4399手机游戏大全，一文在手，游戏我有

《用4399手机游戏大全，让游戏时光更精彩》

Qwen3.5-9B农业技术推广：病虫害图片诊断+防治方案生成+农事提醒

终极指南：用Mesa轻松构建智能Agent仿真模型，快速探索复杂系统

《在移动世界里，4399手机游戏如何成为你的掌中乐园？》

REFramework游戏修改框架：解决《怪物猎人：崛起》启动崩溃的完整指南

在手机上畅享电脑版游戏的便捷体验 - 以4399为例

如何轻松获取4399手机版游戏？

IEEE 1905.1拓扑发现协议：构建混合网络的全景地图

从零开始搭建个人网站：4399手机版免费进入网页游戏的全方位指南

在家也能享受电影院级别的观影体验 - 免费畅享4399视频资源