关键词抽取算法TopicRank

news/2024/5/20 8:34:02 标签: 算法, 聚类, 数据挖掘

1、文本预处理,分词,POS

2、筛选候选词,保留最长的名词和形容词序列;

3、采用HAC(层次凝聚聚类算法聚类;(在超过25%重叠词的情况下,认为两个候选序列是相似的)

解释HAC

聚类算法

4、权重计算

w(i,j)为权重,其中 dist(ci, cj ) 是文档中候选关键词 ci 和 cj 的偏移位置的倒数,其中 pos(ci) 表示候选关键词 ci 的所有偏移位置,节点之间全部有连接,无向图。

5、TopicRank 用一个完整的图来表示一个文档,其中主题是顶点,边根据顶点之间语义关系的强度进行加权。 然后,TextRank 的基于图的排序模型用于为每个主题分配一个显着性分数,采用textRank为每个主题打分(无向图)

6、用textRank为节点排序

7 、选择关键词,对于每个主题,选择最具代表性的一个关键词

提取 k 个关键短语精确地覆盖了 k 个主题。 为了找到最能代表一个主题的候选词,有三种策略: 第一个策略是选择关键短语首先出现在文档中; 第二个策略选择出现频率最多的,第三个策略选择集群的质心, 质心是与簇的其他候选者最相似的候选者。


http://www.niftyadmin.cn/n/1713893.html

相关文章

vi命令一览表

vi命令一览表 一.简介   vi是unix世界中最通用的全屏编辑器,linux中是用的是vi的加强版vim,vim同vi完全兼容,vi就是"visual interface"的缩写。它可以执行输出、删除、查找、替换、块操作等众多文本操作,而且…

什么是交叉编译?

什么是交叉编译呢,简单地说,就是在一个平台上生成另一个平台上的可执行代码。这里需要注意的是所谓平台,实际上包含两个概念:体系结构(Architecture)、操作系统(Operating System)。…

本学期计划

比起以前的我,我感觉自己变了很多,尤其在学习方面,重在理解,关键在思考,学东西注意方法,先做出一个小例子出来,再在理解的基础上添加自己的想法,我从今天开始正式学习C,做…

QT读取TXT文件显示中文

在XP下写入你想要的中文,注意保存的时候保存为UTF-8格式,其它格式的话就要看你的 QT了,反正我的QT只能支持UTF-8格式的了!什么GB18030,GBK、GB1232之类的,我的QT都没有办法运行。应该是没有这个格式&#x…

小马过河

我现在的状况使我想到了上小学那时候学过的一篇名叫《小马过河》的课文,我决计学习C,在此之前,我有过犹豫和不安,因为我问过一些比我大几岁的人,看看他们的想法,有的说C很难,不是一般人能学会的…

堆和栈的区别(被转了无数次的好文章)

一、预备知识—程序的内存分配 一个由C/C编译的程序占用的内存分为以下几个部分 1、栈区(stack)— 由编译器自动分配释放 ,存放函数的参数值,局部变量的值等。其 操作方式类似于数据结构中的栈。 2、堆区&#xf…

科学付出 高效学习

最近一直在学习C和MFC,我们以前曾经开过VC的课程,但现在重新学习它,感觉以前学的连皮毛都不够,所以我计划通过看书本结合孙鑫的视频加上一些小例子来系统的来学习。昨天晚上我和平时一样在上机练习,也就是随意的向后面…