基于TopicRank的文本关键词抽取算法研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:lifen11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本关键词抽取是从文本中把能代表该文本内容的词或短语抽取出来的一种自然语言处理技术,它是自然语言处理领域较为重要的一个研究方向,在信息检索、图书馆学、情报学等领域都有重要的实际应用价值。尤其是进入二十一世纪,随着移动互联网等信息技术的快速发展,文本类型的数据呈现出指数增长的态势。对于企业和一些组织而言,这些文本数据具有极大的潜在应用价值,然而如何快速理解、利用这些文本数据是当前企业面临的一个重大实际问题。构建一个有效的关键词自动抽取系统是利用这些文本数据的可行和必要方式之一。在为数众多的文本关键词抽取算法当中,TopicRank算法是一个典型的图排名算法,它在著名的TextRank算法基础上引入了关键词的聚类过程,然后用网络图来对候选关键词聚类进行排名,最后抽取排名最高的聚类中最具代表性的候选关键词作为文本关键词。TopicRank算法认为相比于单个的词,聚类形成的主题能够更好地代表文章内容,消除单个词所带来的语义重复问题。而同TextRank算法类似,TopicRank算法本质上利用的还是文本候选关键词的词频信息,只是利用词频信息的方法有进一步提升和改进。本文认为,除了词频信息以外,文本当中的其他统计特征,如一个候选关键词的长度和它在文章中的位置等对于它是否能代表文章内容也具有重大的影响。同时,TopicRank算法在对候选关键词进行聚类的时候,聚类依据是候选关键词的词形相似度,本文认为这种聚类方式会偏向聚类长度更长的候选关键词,忽略长度较短的关键词,达不到真正的聚类效果。因此,本文采取两种改进TopicRank的方法:第一种在TopicRank词形聚类的基础上加上词向量聚类的过程,实现根据语义进行聚类的目的;第二种将候选关键词的长度和位置信息等统计特征有效地融入TopicRank,形成TopicLPRank,将无监督关键词抽取算法当中的图模型方法和统计方法结合起来,探索进一步提高文本关键词抽取准确度的有效方法。为了证明本文提出的关键词抽取方法的有效性,本文在多个不同规模、不同类型的数据集上做了大量对比实验。实验结果显示,加入词向量聚类的过程能有效改进TopicRank聚类效果,而单独加入候选关键词的长度和位置信息最好情况下能使模型的F1值提升1.5以上,相当于原有模型效果的10%以上,同时融合候选关键词的长度和位置信息则能使F1值增加3.5以上,相当于原有模型效果的25.21%。实验结果表明了本文提出的关键词抽取方法TopicLPRank是有效和可行的。综上所述,本文针对文本关键词抽取算法TopicRank存在的问题与不足,提出了两种改进的方法,并进行了充分的实验。实验结果证明本文提出的两种改进方法能有效提升TopicRank抽取关键词的能力,验证了本文提出方法的有效性。
其他文献
在大数据时代,个性化自主学习的呼声日益高涨,微课教学应时而生。微课以微视频为载体,精简了教学时间,具有较强的教学针对性,具备可重复观看及便于资源共享等特点,成为当今教育的热点。立体几何是高中数学教学中非常重要的知识板块,可以培养数学直观、逻辑推理、数学运算等学科素养。微课辅助立体几何教学,创新了教学形式,贯彻了学生为主体地位的教育理念,有着巨大的实际意义。基于此背景,笔者对立体几何的微课教学应用进
学位
近年来,教育大数据背景下教育领域信息化、网络化的推进,使得教育数据资源快速积累,随着教育信息化建设进入到应用的阶段,更多人工智能技术的兴起,激发了教育数据资源应用的深度挖掘与探索,也给需要借助传统统计学处理资源的众多学科新的解决思路,同时也将研究人员从处理与甄别工作中解放出来,专注于问题的研究与分析。目前教育信息化评估领域数据资源的采集处理与应用在不断地丰富完善,更多的算法应用到中小学评估资源的处
学位
近年来,随着互联网的快速发展,人们已经进入了大数据时代,各种信息数据都在实现着爆炸式的指数型增长,数据信息量处于过载状态。个性化推荐系统作为解决信息过载问题的有效手段,现已经广泛地应用到如电商平台,电影推荐,音乐推荐等各个领域当中,对于推荐算法的不断优化和改进,不仅能够提高用户体验,还能带来一定的商业价值,推动其他行业的发展。在推荐系统中推荐算法是最为关键的部分,良好的推荐算法能快速且较为准确的预
学位
大脑是生物体的“领导中心”,支配着身体的各项活动。大脑接收并处理复杂信息的原因是神经元网络之间的连通与协调的电活动。为了掌握大脑处理信息并发送指令的过程,需要高分辨率技术来监测神经元的电活动。测量神经元电活动的传统方法有:电压钳技术、电流钳技术和膜片钳技术,具体方法是用玻璃毛细管拉制成电极,穿透细胞膜获得神经元电生理特性,理解其动作电位的机制。大脑中的神经元有上千亿,用以上传统方法的缺点是同时监测
学位
互联网的快速发展在给人们带来便利的同时,也给人们的生活带来诸多安全隐患,其中信息安全尤为重要。为提高传输信息的安全性,保护个人隐私,很多学者在从事隐写技术研究,它是利用载体的冗余,将秘密信息嵌入到载体中通过公共信道进行传输,避免第三方的怀疑,从而实现秘密信息的传递。图像是隐写常用的载体之一,传统的以图像为载体的隐写术都是以单张图像作为载体,但单张图像作为载体隐写容量有限。为适应实际需求,确保秘密信
学位
抗生素耐药形势严峻,抗生素发展遇到了前所未有的挑战。了解抗生素耐药作用机制对于有效跟踪耐药性传播、优化治疗方法以及进行新药物研发至关重要。大量关于抗生素耐药性研究成果存在于生物医学文献中,使用文本挖掘相关方法自动从文本中获取信息有效降低了知识获取成本并提高了工作效率。本文将抗生素耐药性信息抽取建模为生物医学事件抽取任务,以期从生物医学文本中自动获取抗生素耐药作用机制信息。生物医学事件抽取主要由生物
学位
随着大数据时代的到来,互联网图像资源迅猛增长,如何快速正确地从海量的图像数据中检索出用户所需的图像成为亟需解决的一大难题。在大规模图像检索的背景需求下,基于内容的图像检索技术利用图像自身的语义信息,摈弃以往繁杂的人工文本标注,提高了图像检索性能,但在基于内容的图像检索方法中,图像往往由高维的特征矢量表示,而这又带来了大规模图像特征存储量大,索引难等新问题。近年来,在大规模图像检索中引入哈希的检索方
学位
近年来,用户情感分析在个性化推荐系统中体现出越来越重要的地位,各种各样的垂直场景的移动应用极大丰富了人们社交、娱乐和学习的方式。通过手机拍照,然后配上一段合适的文案来分享和记录生活,更是成为了当代人们一种新的社交方式。基于拍照配文这一特定的场景中进行用户情感分析,能够提供更为精准的基于情感需求的个性化推荐服务。但目前针对拍照场景中的用户情感分析还较少,已有的图像描述生成任务是对进行照片内容客观的描
学位
建筑物三维模型是地球空间信息的重要组成部分,也是组成“数字城市”的关键所在,在诸如城市规划、三维导航、文化遗产保护等领域得到了广泛的应用。而随着激光雷达技术的不断发展,点云数据尤其是机载激光雷达扫描数据已经成为继矢量地图和影像数据之外的第三类重要的时空数据,其本身蕴含的信息具有二维地图和影像无可比拟的优越性。目前,根据建筑物点云数据进行建筑物三维重建是摄影测量、计算机图形学、计算机视觉和遥感社区中
学位
学习分析中学习者的学业成绩预测有利于教师进行教学决策,并采取教学干预以提升学生成绩。当前该领域主要是通过学习者的人口学信息和行为特征来预测学业成绩,忽略了文本数据所蕴含的情感与学业成绩之间的关系。因此,本文尝试利用学习情感进行学业成绩预测。具体而言,本文首先识别文本所蕴含的情感极性,然后从情感角度来预测学业成绩。为提升情感识别准确性,本文加入与学习行为相关的主题文本,包含“教师授课”、“获得证书”
学位