一、聚类的基础知识介绍
1.聚类的定义
聚类就是对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小,他是无监督的。
2.相似度/距离计算方法总结
闵可夫斯基距离Minkowski/欧式距离:
杰卡德相似系数(Jaccard):
余弦相似度(cosine similarity):