超图聚类论文阅读1:Kumar算法

news/2024/5/20 6:03:11 标签: 算法, 聚类, 论文阅读

超图聚类论文阅读1:Kumar算法

《超图中模块化的新度量:有效聚类的理论见解和启示》

《A New Measure of Modularity in Hypergraphs: Theoretical Insights and Implications for Effective Clustering》

COMPLEX NETWORKS 2020, SCI 3区

具体实现源码见HyperNetX库

工作:

  1. 针对超图聚类问题推广模块度最大化框架
  2. 引入了一个超图空模型,它与无向图的配置模型完全对应。
  3. 推导出一个保留超图节点度序列的邻接矩阵缩减

成果:

  1. 使用 Louvain 方法最大化由此产生的模块化函数,已知在图实践中效果很好
  2. 在几个真实世界的数据集上展示了我们的方法的有效性

简介

先前工作

  • 注意力限制在 k-均匀超图上,其中所有超边具有相同的固定大小。

    提出合适的超图拉普拉斯算子来扩展一般超图的谱聚类框架——隐含了图扩展的思想

  • 模块度最大化是图上聚类的另一种方法,它提供了一个标准来衡量模块化函数中的集群质量

    经典方法为louvain算法

  • 团扩展问题:会丢失编码在超边结构中的关键信息。也不会保留超图的节点度——这是模块度最大化方法基于的零模型所必需的

  • 有多种切割超边的方法。根据切割不同侧节点的比例和分配,聚类将发生变化。需要考虑超边权重

本文贡献

  1. 在超图上定义了一个空模型(可以保持超图节点度信息),并使用上述定义了一个模块化函数,可以使用 Louvain 方法将其最大化。
  2. 提出了一种迭代超边重新加权过程,该过程利用来自超图结构的信息和超边切割的平衡。
  3. 在几个真实世界的数据集上凭经验评估了生成的算法,证明了其相对于竞争基线的有效性和效率。

背景知识

  1. 超图——关联矩阵、团扩展
  2. 模块度

超图模块度

节点的采样概率与其参与的超边的数量(或在加权情况下,总权重)成正比
P i j h y p = d ( i ) × d ( j ) ∑ v ∈ V d ( v ) P_{i j}^{h y p}=\frac{d(i) \times d(j)}{\sum_{v \in V} d(v)} Pijhyp=vVd(v)d(i)×d(j)

  • 在进行团扩展时,相应图中节点的度数与它在图中的度数不同原始超图

对于每个超边 e,节点度被多算了一个因子 (δ(e) − 1)。因此,我们可以通过将每个 w(e) 缩小一个因子 (δ(e) − 1) 来纠正它。这导致以下更正的邻接矩阵:
A h y p = H W ( D e − I ) − 1 H T A^{h y p}=H W\left(D_e-I\right)^{-1} H^T Ahyp=HW(DeI)1HT
我们可以使用这种保留节点度数的缩减,将对角线归零,以实现方程式中的空模型。

超图模块度的表达式:
Q h y p = 1 2 m ∑ i j [ A i j h y p − P i j h y p ] δ ( g i , g j ) Q^{h y p}=\frac{1}{2 m} \sum_{i j}\left[A_{i j}^{h y p}-P_{i j}^{h y p}\right] \delta\left(g_i, g_j\right) Qhyp=2m1ij[AijhypPijhyp]δ(gi,gj)
与任何加权图一样,此函数的范围是 [−1, 1]。当超边中没有一对节点属于同一集群时,我们将得到 Qhyp = −1,而当属于同一超边的任何两个节点始终属于同一集群时,我们将得到 Qhyp = 1。 Qhyp = 0,对于任何一对节点 i 和 j,同时包含 i 和 j 的超边数等于包含 i 和 j 的随机连线超边数,由空模型给出。

迭代超边重新加权

问题:最小切割算法会支持尽可能不平衡的切割

思路:我们希望在簇中保留不平衡的超边,并切割更平衡的超边——可以通过增加获得不平衡切割的超边的权重,并减少获得更平衡切割的超边的权重来完成。

超边被一分为二,两边节点数分别为k1、k2:
t = ( 1 k 1 + 1 k 2 ) × δ ( e ) t=\left(\frac{1}{k_1}+\frac{1}{k_2}\right) \times \delta(e) t=(k11+k21)×δ(e)

t值示例

k 1 = k 2 = δ ( e ) / 2 k1=k2=\delta(e)/2 k1=k2=δ(e)/2时,t取最小值4,推广上式:
w ′ ( e ) = 1 m ∑ i = 1 c 1 k i + 1 [ δ ( e ) + c ] w^{\prime}(e)=\frac{1}{m} \sum_{i=1}^c \frac{1}{k_i+1}[\delta(e)+c] w(e)=m1i=1cki+11[δ(e)+c]
——+1 和 +c 项都被添加用于平滑,以解决任何 ki 为零的情况。我们除以 m 来归一化权重

令 wt(e) 为超边 e 在第 t 次迭代中的权重,w’(e) 为在给定迭代中计算的权重,则权重更新规则可写为:
w t + 1 ( e ) = α w t ( e ) + ( 1 − α ) w ′ ( e ) w_{t+1}(e)=\alpha w_t(e)+(1-\alpha) w^{\prime}(e) wt+1(e)=αwt(e)+(1α)w(e)

示例

初始的切分很不均匀,有1:4、1:2、2:3等切分,改进后,不均匀的切割被去除——h1 和 h3 中的单个节点最初分配给另一个集群,已被拉回它们各自的(更大的)集群。

小例子

实验

度量指标

  • 使用平均 F1 度量兰德指数RI来评估具有真实类别标签的真实世界数据的聚类性能

几种用作对比的方法

  1. 团扩展+louvain

  2. 超图谱聚类

  3. hMETIS 和 PaToH

数据集

  • MovieLens:联合导演
  • Cora 和 Citeseer:论文共同作者
  • TwitterFootball:足球俱乐部
  • Arnetminer:共引论文

结果

  • 在所有数据集上显示最佳平均 F1 分数、在除一个数据集外的所有数据集上显示最佳兰德指数分数
  • 在所有数据集和两种实验设置上都优于各自的团扩展方法
  • f分析得出碎片边增加,这可能对应于更平衡的切割

结论

  • 考虑了超图上的模块化最大化问题。在提出超图的模块化函数时,我们推导出了一个节点度保持图缩减和一个超图空模型
  • 为了进一步细化聚类,我们提出了一种超边重新加权过程,可以平衡聚类方法引起的切割
  • 迭代重新加权模块化最大化 (IRMM)在数据集上表现出不错的性能

http://www.niftyadmin.cn/n/5008269.html

相关文章

序列到序列学习(seq2seq)

permute(1,0,2),将batch_size 放在中间state 最后一个时刻,每个层的输出

《向量数据库指南》——AI原生向量数据库Milvus Cloud 2.3稳定性

在当今的互联网时代,稳定性是所有系统和应用程序的关键要素。无论是大型数据中心还是个人电脑,稳定性都是保证正常运行和用户体验的基础。在这个背景下,我们来谈谈 Milvus,一个开源的向量数据库,它在 2.1.0 版本中引入了内存多副本的概念。 Milvus 是一个开源的向量数据库…

岛屿数量 -- 二维矩阵的dfs算法

岛屿数量 又被称为 FloodFill 算法 class NumIslands:"""floodFill 算法https://leetcode.cn/problems/number-of-islands/"""def solution(self, grid: List[List[str]]) -> int:res 0m, n len(grid), len(grid[0])for i in range(m):for…

自定义封装异步任务组件,实现FutureTask功能

FutureTask 在 JDK1.8 后的异步编排API中的CompletableFuture&#xff0c;提供了 异步任务的成功回调、异常回调。 public class FutureTaskTest {public static void main(String[] args) throws Exception {CompletableFuture<String> future CompletableFuture.sup…

代理IP与网络安全:保障跨境电商和游戏的顺畅运行

在今天的数字时代&#xff0c;跨境电商和在线游戏已经成为全球互联网经济的两个重要组成部分。然而&#xff0c;这两者都需要强大的网络基础设施来支持其运行。同时&#xff0c;网络安全问题也变得愈发突出。在这个背景下&#xff0c;代理IP技术以及特别是Socks5代理协议&#…

UWB学习——day2

UWB应用 基于上文UWB学习——day1中对UWB技术的相关优势介绍&#xff0c;UWB技术可广泛应用于以下场景。 WPAN&#xff08;无线个域网&#xff09; 基于其高精度&#xff08;亚厘米级&#xff09;、低功耗和高穿透性等特征&#xff0c;在以人为基础的个域网中应用广泛&#…

监控系统典型架构

监控系统典型架构如下&#xff1a; 从左往右看&#xff1a; 采集器是负责采集监控数据的&#xff0c;采集到数据之后传输给服务端&#xff0c;通常是直接写入时序库。 对时序库的数据进行分析和可视化。 告警引擎产生告警事件之后交给告警发送模块做不同媒介的通知。 可视化比…

SRT参数说明

1.超时选项 connect_timeout 连接超时时间&#xff0c;单位毫秒&#xff0c;默认值为3秒。 当RTT > 1500毫秒(2次握手交换)时&#xff0c;SRT无法连接。此选项适用于caller和rendezvous模式。 listen_timeout 监听超时时间&#xff0c;单位毫秒 timeout 为读、写和连接操作…