目标:将数据样本划分为若干个通常不相交的“簇”
外部指标:将聚类结果与某个参考模型进行比较
聚类结果形成的簇的集合:C,参考模型的簇集合:D
Jaccard指数:$JC=\frac{a}{a+b+c}$,表示集合之间的相似性
FM指数:$FMI=\sqrt{\frac{a}{a+b}\times \frac{a}{a+c}}$
Rand指数:$RI=\frac{a+d}{a+b+c+d}$
内部指标:直接考察聚类结果,无参考模型
DB指数:越小越好
Dunn指数:越大越好
距离度量:需要满足非负性、对称性、直递性
闽科夫斯基距离:面对有序属性(即可以比大小)
VDM:面对无序属性
其中$m_{u,a}$表示在属性u上取值为a的样本数,$m_{u,a,i}$表示在第i个样本簇中在属性u上取值为a的样本数
对于混合属性:将闽科夫斯基距离和VDM结合
原型=簇中心
K-Means算法
一直迭代直至所有的簇的中心不再发生改变,数学上一定能够保证收敛
若不知道数据的计算方式,则可更改为K-Medoids算法:将每次迭代中簇的新中心点改为距离中心点最近的样本点
高斯混合聚类 Gaussian Mixture Model (GMM)
采用高斯概率分布来表达聚类原型