[数据挖掘] - 聚类算法：K-means算法理解及SparkCore实现

发布时间：2017年06月08日作者：IT网络文摘

聚类算法是机器学习中的一大重要算法，也是我们掌握机器学习的必须算法，下面对聚类算法中的K-means算法做一个简单的描述：

一、概述

K-means算法属于聚类算法中的直接聚类算法。给定一个对象(或记录)的集合，将这些对象划分为多个组或者“聚簇”，从而使同组内的对象间比较相似而不同组对象间差异比较大；换言之，聚类算法就是将相似的对象放到同一个聚簇中，而将不相似的对象放到不同的聚簇中。由于在聚类过程中不使用到类别标签，所以相似性的概念要基于对象的属性进行定义。应用不同则相似性规则和聚类算法一般不太一样，所以，不同的聚类算法适应于不同的业务场景，因此，“最优”的聚类算法实际上依赖于具体的应用。

k-means算法是一种简单的迭代型聚类算法，将一个给定的数据集分为用户指定的k的聚簇。实现和运行该算法都比较简单，而且运行速度比较快，同时易于修改，所以在实际应用中使用场景比较多，可以说该算法是数据挖掘领域发展史中最为重要的算法之一。

二、算法描述

k-means算法的输入对象是d维向量空间的一些点。因此，该算法是对一个d维向量的点集D={x_i|i=1,....,N}进行聚类，其中x_i表示第i个对象(数据点), k-means算法会将集合D划分为k个聚簇。也就是说k-means算法会将集合D中的每一个点x_i都归于k个聚簇中的一个，所以可以定义一个长度为N的聚簇成员向量m，其分量m_i就是x_i的聚簇标识。

k值是k-means算法的一个关键输入。但是如何选择k值对于理解k-means算法的运行原理没有任何关系。k值的选择的典型方法一般是根据某些先验

分类导航

[数据挖掘] - 聚类算法：K-means算法理解及SparkCore实现

网友评论

更多精彩分享