Python那些事——Python机器学习随笔之K-Means聚类的实现

文章来源：企鹅号 - 爱度志科技

1. K-Means聚类原理

K-means算法是很典型的基于距离的聚类算法，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。其基本思想是：以空间中k个点为中心进行聚类，对最靠近他们的对象归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。

算法大致流程为：

（1）随机选取k个点作为种子点(这k个点不一定属于数据集)；

（2）分别计算每个数据点到k个种子点的距离，离哪个种子点最近，就属于哪类；（3）重新计算k个种子点的坐标(简单常用的方法是求坐标值的平均值作为新的坐标值；

（4）重复2、3步，直到种子点坐标不变或者循环次数完成。

2.数据及其寻找初步的聚类中心

数据为Matlab加载格式（mat），包含X变量，数据来源为（大家可以去这下载）：

https://github.com/jdwittenauer/ipython-notebooks/tree/master/data，

X为300*2维变量，由于是2维，所以基本上就是在平面坐标轴上的一些点中进行聚类。

我们首先构建初步寻找聚类中心（centroids，质心）函数，再随机设置初始质心，通过欧氏距离初步判断X的每一个变量属于哪个质心。代码为：

在这里先生成m（这里为300）个0向量，即idx，也就是假设X的每个变量均属于0类，然后再根据与初始质心的距离计算dist = np.sum((X[i,:] - centroids[j,:]) ** 2)，初步判断每个变量归属哪个类，最终替代idx中的0.

3.不断迭代寻找质心的位置并实现kmeans算法

上述idx得到的300维向量是判断X中每个变量的归属类别，在此基础上，再对初始质心集群位置不断调整，寻找最优质心。

根据上述函数，来构建kmeans函数实现K-means聚类算法。然后根据得到的每个变量归属类别与质心坐标，进行可视化。

得到图形如下：

4.关于初始化质心的设置

我们前边设置的初始质心：[3, 3], [6, 2], [8, 5]，是事先设定的，并由此生成idx（每一变量归属类别的向量），这是后边进行kmeans聚类的基础，实际上对于二维以上数据，由于无法在平面坐标轴展示，很难一开始就设定较好的初始质心，另外，初始质心的设定也可能会影响算法的收敛性。所以需要我们再构造个初始化质心设定函数，来更好地设置初始质心。

这里所生成的初始质心位置，其实就是从X的数据中随机找3个变量作为初始值。在此基础上，令initial_centroids = init_centroids(X, 3)，然后代入前边的code中，重新运行一遍即可。

发表于: 2018-02-102018-02-10 10:27:19
原文链接：http://kuaibao.qq.com/s/20180210A09APG00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

Python那些事——Python机器学习随笔之K-Means聚类的实现

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐