用于聚类分析的数据,聚类轮廓系数的通俗解释

什么是轮廓系数? 见百度百科。 这里不说明。

https://baike.baidu.com/item/配置文件系数/17361607? fr=aladdin

核心问题:

这种计算方法的复杂性是多少?

o (n (2) ) ) )。

这里,n是样本数

这种复杂性是spark分布式大数据处理所不能接受的,我该怎么办呢?

如何计算spark的轮廓系数? 资料1轮廓系数的简单计算实现:

3358 sujitpal.blogspot.com/2018/03/an-implementation-of-silhouette-score.html

资料2 spark Issue :

3359 issues.Apache.org/jira/browse/spark-14516

资料3 spark的Issues解答:

3359 drive.Google.com/file/d/0b0hyo _ BG _3fdknvsvnyx2E3 zu0/view

资料4 sklearn的实现方法:

3359 sci kit-learn.org/stable/modules/generated/sk learn.metrics.silhouette _ score.html # sk learn.metrics

通过简单计算方式和预结算两种方式,实现了复杂度的降低,实现了有效的应用。

网友留言(0条)

发表评论