机器学习 | 无监督聚类K-means和混合高斯模型

1. 实验目的

实现一个K-means算法和混合高斯模型，并用EM算法估计模型中的参数。

2. 实验内容

用高斯分布产生 $k$ 个高斯分布的数据（不同均值和方差）（其中参数自己设定）。

用K-means聚类，测试效果；
用混合高斯模型和你实现的EM算法估计参数，看看每次迭代后似然值变化情况，考察EM算法是否可以获得正确的结果（与你设定的结果比较）。
可以UCI上找一个简单问题数据，用你实现的GMM进行聚类。

3. 实验环境

Windows11; Anaconda+python3.11; VS Code

4. 实验过程、结果及分析（包括代码截图、运行结果截图及必要的理论支撑等）

4.1 算法理论支撑

4.1.1 K-means聚类算法

K-means聚类算法的核心思想为假定聚类内部点之间的距离应该小于数据点与聚类外部的点之间的距离。即使得每个数据点和与它最近的中心之间距离的平方和最小。

假设数据集为 $\left\{ x_{1},\ldots,x_{N} \right\},x_{i} \in \mathbb{R}^{D}$ ，我们的目标是将数据集划分为 $K$ 个类别 $Y$ 。令 $\mu_{k} \in \mathbb{R}^{D},k = 1,\ldots,K$ 表示各类别的中心。聚类问题等价于求概率分布：

$P\left( Y \middle| X \right) = \frac{P\left( X \middle| Y \right) \bullet P(Y)}{P(X)}$

K-means聚类相当于假设 $P\left( X \middle| Y \right)$ 服从多元高斯分布（特征之间相互独立，协方差矩阵 $\Sigma\mathbf{=}\lambda\mathbf{I}$ ），且 $P (Y)$ 为等概率均匀分布。而 $P (X)$ 为已知数据分布，从似然的角度看，极大化 $P\left( Y \middle| X \right)$ 即等价于极大化 $P\left( X \middle| Y \right)\sim - \frac{1}{2}(x - \mu)^{T}\Sigma^{- 1}(x - \mu)$ ，即最小化各数据点到其类别的均值。

$多元正态分布：\mathcal{N(}x|\mu,\Sigma) = \frac{1}{(2\pi)^{D/2}}\frac{1}{\mid \Sigma \mid^{1/2\ }}\exp\{ - \frac{1}{2}(x - \mu)^{T}\Sigma^{- 1}(x - \mu)\}\$

引入二值指示变量 $r_{nk} \in \{ 0,1\}$ 表示数据点的分类情况，则可定义目标函数为

$\min_{r,\mu}{J = \sum_{n = 1}^{N}{\sum_{k = 1}^{K}{r_{nk}\left\| x_{n} - \mu_{k} \right\|^{2}}}}$

因此最优化过程可以划分为两步：

固定 $\mu$ ，优化 $r_{nk}$ 。由于 $J$ 关于 $r_{nk}$ 是线性的，因此可以对每个 $n$ 分别进行最小化，即对 $r_{nk}$ 根据与聚类中心的距离进行最优化：

$r_{nk} = \left\{ \begin{aligned} 1 ,&\ \ \ \ \ \ \ \ \ k = argmin_{j}\left\| x_{n} - \mu_{j} \right\|^{2} \\ 0 ,&\ \ \ \ \ \ \ \ \ 其他情况\ \ \ \end{aligned} \right.\$

固定 $r_{nk}$ ，优化 $\mu$ 。由于 $J$ 是 $\mu$ 的二次函数，对其求导等于零得

$\frac{\partial J}{\partial\mu_{k}} = 2\sum_{n = 1}^{N}{r_{nk}(x_{n} - \mu_{k}) = 0} \Rightarrow \mu_{k} = \frac{\sum_{n}^{}{r_{nk}x_{n}}}{\sum_{n}^{}r_{nk}}$

即 $\mu_{k}$ 等于类别k的所有数据点的均值。

4.1.2 混合高斯模型

任意连续概率密度都能用多个高斯分布的线性组合叠加的高斯混合概率分布 $\sum_{k = 1}^{K}{\pi_{k}\mathcal{N}(x|\mu_{k},\Sigma_{k})}$ 来描述。引入 $"1\ of\ K"$ 编码的二值随机变量 $\mathcal{z}$ ，满足 $\mathcal{z}_{k} \in \{ 0,1\}$ 且 $\sum_{k = 1}^{K}\mathcal{z}_{k} = 1$ 。

由右图模型定义联合概率分布 $p\left( x,\mathcal{z} \right) = p\mathcal{(z) \bullet}p\left( x|\mathcal{z} \right)$ ， $\mathcal{z}$ 的边缘先验概率分布设为 $p(\mathcal{z}_{k} = 1) = \pi_{k}(0 \leq \pi_{k} \leq 1且\sum_{k = 1}^{K}{\pi_{k} = 1})$ ，也可写作 $p(\mathcal{z}) = \prod_{k = 1}^{K}\pi_{k}^{\mathcal{z}_{k}}$ 。

那么， $x$ 的条件概率分布为：
$p(x|\mathcal{z}_{k} = 1) = \mathcal{N(}x|\mu_{k},\Sigma_{k}) \Leftrightarrow \ p(x|\mathcal{z}) = \prod_{k = 1}^{K}{\mathcal{N(}x|\mu_{k},\Sigma_{k})^{\mathcal{z}_{k}}}$

于是可以给出 $\sum_{\mathcal{z}}^{}{p\mathcal{(z) \bullet}p\left( x\mathcal{|z} \right)} = \sum_{k = 1}^{K}{\pi_{k}\mathcal{N(}x|\mu_{k},\Sigma_{k})}$ ，同时， $\mathcal{z}$ 的条件后验概率 $\gamma(\mathcal{z}_{k})$ 由贝叶斯定理得（已知为 $x$ ，类别为 $\mathcal{z}_{k}$ 的概率）：

$\begin{array}{r} \gamma(z_{k}) \equiv p\left( \mathcal{z}_{k} = 1 \middle| x \right) \end{array} = \frac{p\left( z_{k} = 1 \right)p\left( x \middle| z_{k} = 1 \right)}{\sum_{j = 1}^{K}{p\left( z_{j} = 1 \right)p\left( x\mid z_{j} = 1 \right)}}\ = \frac{\pi_{k}\mathcal{N}\left( x\mid\mu_{k},\Sigma_{k} \right)}{\sum_{j = 1}^{K}{\pi_{j}\mathcal{N}\left( x\mid\mu_{j},\Sigma_{k} \right)}}$

于是此聚类过程可以看做将概率分布 $p (x)$ 解耦成 $K$ 个高斯分布，对应 $K$ 个类别。对于数据集 $\left\{ x_{1},\ldots,x_{N} \right\},x_{i} \in \mathbb{R}^{D},X \in \mathbb{R}^{N \times D}$ ，对应隐变量表示为 $\in \mathbb{R}^{N \times K}$ 。

则对数似然函数为
$\ln p(X \mid \pi,\mu,\Sigma) = \sum_{n = 1}^{N}{\ln\left\{ \sum_{k = 1}^{K}{\pi_{k}\mathcal{N}\left( x_{n}\mid\mu_{k},\Sigma_{k} \right)} \right\}}$

将此似然函数关于 $\mu_{k}$ 求导（假设 $\Sigma_{k}$ 非奇异），令 $N_{k} = \sum_{n = 1}^{N}{\gamma\left( z_{nk} \right),\ \gamma\left( z_{nk} \right) \equiv p\left( z_{k} = 1 \middle| x_{n} \right)}$ 为能被分配到聚类 $k$ 的有效数量，可以得到：

$\sum_{n=1}^{K}\frac{\pi_{k}\mathcal{N}(x_{n}\mid\mu_{k},\Sigma_{k})}{\underbrace{\sum_{j}\pi_{j}\mathcal{N}(x_{n}\mid\mu_{j},\Sigma_{j})}_{\gamma({z}_{nk})}}\Sigma_{k}^{-1}(x_{n}-\mu_{k})=0\Rightarrow\mu_{k}=\frac{1}{N_{k}}\sum_{n=1}^{N}\gamma(z_{nk})x_{n}$

由此式 $\mu_{k}$ 可视为当前所有点数据为第 $k$ 类的概率加权平均。

同样地，将此函数关于 $\Sigma_{k}$ 求导等于0可以得到：

$\Sigma_{k} = \frac{1}{N_{k}}\sum_{n = 1}^{N}{\gamma(z_{nk})(x_{n} - \mu_{k})(x - \mu_{k})^{T}}$

最后使用拉格朗日乘子法关于 $\pi_{k}$ 优化 $\ln{p\left( X\mid\pi,\mu,\Sigma \right)} + \lambda(\sum_{k = 1}^{K}{\pi_{k} - 1})$ （ $\pi_{k}$ 需要满足和为1的条件）得到：

$\sum_{n = 1}^{N}{\frac{\mathcal{N(}x_{n} \mid \mu_{k},\Sigma_{k})}{\sum_{j}^{}{\pi_{j}\mathcal{N(}x_{n} \mid \mu_{j},\Sigma_{j})}} + \lambda} = 0 \Rightarrow \pi_{k} = \frac{N_{k}}{N}$

使用EM算法优化 $\ln p(X \mid \pi,\mu,\Sigma)$ 即可总结为以下步骤：

ALGORITHM 1 EM for Gaussian Mixture Models

input $\leftarrow$ 数据集， $\leftarrow$ 类别数目， $\leftarrow$ 迭代次数；
初始化均值 $\mu_{k}$ 、协方差 $\Sigma_{k}$ 和混合系数 $\pi_{k}$
计算对数似然 $\ln p(X \mid \pi,\mu,\Sigma) \leftarrow \sum_{n = 1}^{N}{\ln\left\{ \sum_{k = 1}^{K}{\pi_{k}\mathcal{N}\left( x_{n}\mid\mu_{k},\Sigma_{k} \right)} \right\}}$
while $i < i t er$ do
$\gamma(z_{nk}) \leftarrow \frac{\pi_{k}\mathcal{N}\left( x_{n}\mid\mu_{k},\Sigma_{k} \right)}{\sum_{j = 1}^{K}{\pi_{j}\mathcal{N}\left( x_{n}\mid\mu_{j},\Sigma_{j} \right)}}$ ；（E步）
$\mu_{k}^{new} \leftarrow \frac{1}{N_{k}}\sum_{n = 1}^{N}{\gamma(z_{nk})x_{n}}$ ；
$\Sigma_{k}^{new} \leftarrow \frac{1}{N_{k}}\sum_{n = 1}^{N}{\gamma(z_{nk})(x_{n} - \mu_{k}^{new})(x - \mu_{k}^{new})^{T}}$ ；（M步）
$\pi_{k}^{new} \leftarrow \frac{N_{k}}{N}$ ；
end while
return $\mu_{k},\Sigma_{k},\pi_{k}$ //返回最优参数；

4.2 实验设计

4.2.1 随机数据生成

在这里插入图片描述
如上图代码，使用np.random.multivariate_normal方法按给定的协方差矩阵和均值按多元高斯分布初始化 $k$ 个类别的数据点。

4.2.2 K-means聚类

首先初始化 $k$ 个类的中心，这里采取的是从数据集中随机选取 $k$ 个样本作为初始的 $k$ 类中心。

在这里插入图片描述

而后是更新中心的算法，主要是分为两步：

通过计算每个样本到 $k$ 个中心的距离（欧式距离），然后选取最小的距离对应的那个聚类中心作为样本标签，将该样本划分到这个类中，
根据更新后的类别计算类内均值，作为新的中心。

在这里插入图片描述

重复上述过程，直至中心更新距离较之上次变化较小时退出迭代。

在这里插入图片描述

4.2.3 混合高斯模型GMM

首先初始化 $k$ 个类的均值、协方差和混合系数，可以有随机生成和采用K-means聚类的结果两种方式进行初始化。

在这里插入图片描述

根据对数似然计算公式 $\mid \pi,\mu,\Sigma) \leftarrow \sum_{n = 1}^{N}{\ln\left\{ \sum_{k = 1}^{K}{\pi_{k}\mathcal{N}\left( x_{n}\mid\mu_{k},\Sigma_{k} \right)} \right\}}$ 以及关于 $\mu_{k}$ 、 $\Sigma_{k}$ 和 $\pi_{k}$ 的导数进行EM更新：

E步：计算 $\gamma(z_{nk}) \leftarrow \frac{\pi_{k}\mathcal{N}\left( x_{n}\mid\mu_{k},\Sigma_{k} \right)}{\sum_{j = 1}^{K}{\pi_{j}\mathcal{N}\left( x_{n}\mid\mu_{j},\Sigma_{j} \right)}}$ ，即各数据点的类别概率；
M步：计算新的均值 $\mu_{k}^{new} = \frac{1}{N_{k}}\sum_{n = 1}^{N}{\gamma(z_{nk})x_{n}},\ 混合系数\pi_{k}^{new} \leftarrow \frac{N_{k}}{N}以及{协方差\Sigma}_{k}^{new} = \frac{1}{N_{k}}\sum_{n = 1}^{N}{\gamma(z_{nk})(x_{n} - \mu_{k}^{new})(x - \mu_{k}^{new})^{T}}$