k-Medoids 聚类系列算法：PAM, CLARA, CLARANS

前言

如果你对这篇文章可感兴趣，可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」，查看完整博客分类与对应链接。

$k$ -Means 作为一种经典聚类算法，相信大家都比较熟悉，其将簇中所有的点的均值作为簇中心，整个过程采用欧式空间中的距离度量。不同于 $k$ -Means， $k$ -Medoids 将距簇中所有点距离之和最小的点作为簇中心，如下所示：
$\operatorname{medoid}(C):=\underset{x_i \in C}{\arg \min } \sum_{x_j \in C} d\left(x_i, x_j\right),$

其中 $d(\cdot, \cdot)$ 为采用的度量。整个过程希望最小化：
$\text{Loss}:=\sum_{i=1}^k\sum_{x_c\in C_i} d(x_c, m_i),$

其中 $k$ 表示 $k$ 个簇， $C_i$ 表示第 $i$ 个簇， $m_i$ 为 $C_i$ 的簇中心。接下来介绍一些实现上述目标的算法。

PAM_Partitioning_Around_Medoids_17">PAM (Partitioning Around Medoids)

在最初版本的 PAM 中，整体流程分为两步：

第一步为 BUILD，即贪心选取 $k$ 个点作为 Medoids；
第二步为 SWAP，需迭代多次，每一次选取一对点 $m_i,x_o)$ ，用 $x_o$ 将中心点 $m_i$ 替换掉。

具体来说，在得到预处理的距离矩阵后，第一步一共贪心地执行 $k$ 次，每一次选择一个使 $\text{Loss}$ 下降最多的点作为 Medoids，这一步总的复杂度为 $O(n^2k)$ 。

第二步需迭代多次，每一次遍历所有的 $m_i,x_o)$ 组合，并计算采用该组合后， $\text{Loss}$ 下降的幅度，选取下降幅度最大的组合作为交换，每一次迭代的复杂度为 $O(k(n-k)^2)$ 。

上述流程为比较暴力的方式，如果经过合理优化，SWAP 步可以做到每一次迭代复杂度降为 $O(n^2)$ [FasterPAM]。

CLARA_30">CLARA

CLARA (Clustering LARge Applications) 是一种通过采样方式来加速 PAM 的方法，具体如下：

从大小为 $N$ 的数据集中采样 $n$ 次，每次采样出 $s$ 个点；
对这 $s$ 个点使用 PAM 算法，得到 $k$ 个 medoids candidates；
从所有的 medoids candidates（一共 $s * k$ 个）中挑出 $k$ 个作为最终的 medoids.

最后一步可以采用随机抽取，投票加权，以及对 $s * k$ 个点再执行一遍 PAM 算法等方式，整体过程的伪代码如下所示：

在这里插入图片描述

CLARANS_42">CLARANS

上述 CLARA 有一个问题，即每次采样出一个子集后，该次采样最终选择的 medoids candidates 就被限制在了这个子集中。那有没有什么方法，使得 medoids 的挑选仍然在所有点中进行，而不是局限在一个固定的子集中。

基于上述想法，CLARANS (Clustering Large Applications based on RANdomized Search) 提出在 PAM 的 SWAP 步骤中加入随机化采样，使得整体复杂度下降，具体如下：

随机挑选 $k$ 个点作为初始 medoids；
随机将 $k$ 个点中某一个点换成其它 $n - k$ 个点中任意一个，判断 $\text{Loss}$ 有无下降，若下降则重新执行该步，若持续 $ma x n e i g hb or$ 次置换 $\text{Loss}$ 均未下降，则认为当前这组 medoids 为局部最优，进入下一步；
将当前这组 medoids 记录下来，并重复执行上述两步 $n u m l oc a l$ 次，并从得到的 $n u m l oc a l$ 局部最优中选一组 $\text{Loss}$ 最小的输出。

上述过程对应下述算法：

在这里插入图片描述

其中「an arbitrary node in $G_{n,k}$ 」即「从 $n$ 个点随机挑出 $k$ 个点，并将 $k$ 个点的集合视作一个 node」，「random neighbor of a node」即随机将 $k$ 个点的集合中某一个点换成其它 $n - k$ 个点中的任意一个，「calculate the cost differential of the two nodes」即计算任意置换一个点后 $\text{Loss}$ 的变化情况（该步复杂度为 $O (n - k)$ ）。

参考资料

k-medoids - Wikipedia
[arXiv21 - Erich Schubert] Fast and Eager k-Medoids Clustering: O(k) Runtime Improvement of the PAM, CLARA, and CLARANS Algorithms
[Book - Leonard Kaufman] Finding Groups in Data An Introduction to Cluster Analysis
Advanced Partitional clustering: medoids, PAM and CLARA and lite versions
[TKDE02 - Raymond T. Ng] CLARANS: A Method for Clustering Objects for Spatial Data Mining