K-means算法在使用时需要指定初始时的聚类中心,指定的聚类中心不同,运算时间不同,得到的结果也不同。一般而言,对于初始点,会做多次随机选择。但是在数据规模比较大的情况下,纯粹随机获得的初始点,可能并不能保证运算效率。
K-means ++是一种有效改善k-means初始化的方法,他的思想很直观,让每个点等概率成为初始点的方法并不合理,应该让初始的聚类中心间的距离近尽量远。
算法描述(wikipedia):