1、文本预处理,分词,POS
2、筛选候选词,保留最长的名词和形容词序列;
3、采用HAC(层次凝聚聚类算法)聚类;(在超过25%重叠词的情况下,认为两个候选序列是相似的)
解释HAC
4、权重计算
w(i,j)为权重,其中 dist(ci, cj ) 是文档中候选关键词 ci 和 cj 的偏移位置的倒数,其中 pos(ci) 表示候选关键词 ci 的所有偏移位置,节点之间全部有连接,无向图。
5、TopicRank 用一个完整的图来表示一个文档,其中主题是顶点,边根据顶点之间语义关系的强度进行加权。 然后,TextRank 的基于图的排序模型用于为每个主题分配一个显着性分数,采用textRank为每个主题打分(无向图)
6、用textRank为节点排序
7 、选择关键词,对于每个主题,选择最具代表性的一个关键词
提取 k 个关键短语精确地覆盖了 k 个主题。 为了找到最能代表一个主题的候选词,有三种策略: 第一个策略是选择关键短语首先出现在文档中; 第二个策略选择出现频率最多的,第三个策略选择集群的质心, 质心是与簇的其他候选者最相似的候选者。