基于HLDA模型的中文多文档摘要技术研究

被引量 : 16次 | 上传用户:kmffly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网上一天产生的信息量约有800EB,如果装在DVD光盘中要装1.68亿张。每天产生的数据中很大一部分是以文本的形式展现。因此,如何帮助用户迅速浏览和获取内容主题,提供有效的文本信息表示机制,是一项迫切而十分有意义的任务。这项任务的本质是对多个相似话题的文本进行降维,找出其中内容描述的重要主题,并以简短,可读性好的摘要形式呈现给用户。这其中包含两项子任务:一、找到多文档中的主题。二、形成简短且可读性良好的摘要。这两项任务是本文的重点研究内容。针对第一项子任务,本文采用层次潜在狄利克雷分配(hierarchical Latent Dirichlet Allocation, hLDA)[2]主题模型,该模型不仅能挖掘出文档中隐含的潜在主题,将主题根据抽象性高低构成层次关系,而且主题个数还可以随着数据集的增长而增多。因此hLDA模型可将多个相关文档从词的维度降到主题的维度,在保存原有主题信息的前提下可大大减少数据的维度。建立模型之后,一个文档包含多个主题,这些主题被组织成一条主题路径,同时这条主题路径也被多个文档共享。这样可以完成挖掘主题以及实现主题聚类。对于第二项子任务,本文通过两个步骤完成,首先采用基于层次主题模型的文摘句抽取方法,抽取的原则是:1.句子所包含的主题在所有主题中重要性高。2.主题包含的多个句子中,所抽取的句子代表性强。3.句子中的词抽象性高。接下来要对所抽取出来的摘要句进行排序、润色等操作,使得最终摘要完整可读。本文采用一种通用的句子排序方法:时间排序法。这种方法一般选定某一个时间作为参考点,然后计算其他相对时间的绝对时间。本文在深入解析hLDA主题模型的理论基础上,首先通过文本聚类对比实验,验证了基于hLDA主题模型文本聚类的优越性。然后采用多特征融合的方法抽取句子并最终形成摘要,实验分析结果表明了该方法的有效性和实用性。
其他文献
<正>学生在高中物理的学习过程中,经常会出现忽略物理知识的适用条件,造成物理概念应用不当、物理公式乱套和物理定律乱用,给学生学习物理带来很大的障碍,因此教师在进行物理
爱情是文学作品中亘古常新的主题;诗歌是文坛中最简明的一种文体。但由于地域与文化的差异,中西方在爱情诗歌的表达上稍有不同。本文具体从爱情观、诗歌内容、情感表达方式等
近年来国内关于无国籍问题的研究主要涉及无国籍人员的法律地位、无国籍人员的外交保护与救助、区域无国籍人员的产生原因及其影响、无国籍人员的生存困境及对策建议等方面,
自发性气胸(spontaneous pneumothorax,SP)是常见的胸外科疾病,但SP,特别是原发性自发性气胸(primary spontaneous pneumothorax,PSP)的发病机制、病因尚不完全明确。本文从
数学的心脏就是问题,任何数学知识都是由问题衍生出来,并在解决问题的过程中得到的。因此,初中数学教学必然离不开数学问题,那么,如果在初中数学课堂上开展有效的问题教学,成为广大
遵循"适用、经济、安全、美观"的桥梁设计基本原则,以咸宁市金桂西路跨淦河大桥为工程背景,提供了4种桥梁设计方案:无背索斜拉桥,预应力混凝土连续梁桥、预应力混凝土简支T梁桥
素有"机器人王国"之称的日本,在2008年全球经济危机之后,其机器人产业的市场结构发生了重大转变。2014日本政府拟把机器人作为经济增长战略的重要支柱。扩大工业机器人的应用
本文主要从笔者自身多年建筑设计工作经验出发,并结合案例,简要概述高层建筑结构设计以及剪力墙结构的一些特点,并在此基础上对设计过程中遇到的问题以及相关注意事项进行详
城市空间是一种由很多对立面形成的空间语言,这些对立面反映了一个社会的体系①。既反映了各类城市用地在空间上的投影,又综合反映了城市经济、社会、文化等各个要素。伴随着
围绕小学语文低年级识字教学的有效方法与策略进行了分析与探讨。旨在促进小学低年级识字教学效率的切实提高与进步。