基于HLDA模型的中文多文档摘要技术研究

被引量 : 16次 | 上传用户：kmffly

【摘要】

：

互联网上一天产生的信息量约有800EB,如果装在DVD光盘中要装1.68亿张。每天产生的数据中很大一部分是以文本的形式展现。因此,如何帮助用户迅速浏览和获取内容主题,提供有效

【作者】

：

刘平安

【发表日期】

：

2013年01期

【关键词】

：

中文多文档摘要层次主题模型嵌套中国餐馆过程贝叶斯非参

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

互联网上一天产生的信息量约有800EB,如果装在DVD光盘中要装1.68亿张。每天产生的数据中很大一部分是以文本的形式展现。因此,如何帮助用户迅速浏览和获取内容主题,提供有效的文本信息表示机制,是一项迫切而十分有意义的任务。这项任务的本质是对多个相似话题的文本进行降维,找出其中内容描述的重要主题,并以简短,可读性好的摘要形式呈现给用户。这其中包含两项子任务：一、找到多文档中的主题。二、形成简短且可读性良好的摘要。这两项任务是本文的重点研究内容。针对第一项子任务,本文采用层次潜在狄利克雷分配(hierarchical Latent Dirichlet Allocation, hLDA)[2]主题模型,该模型不仅能挖掘出文档中隐含的潜在主题,将主题根据抽象性高低构成层次关系,而且主题个数还可以随着数据集的增长而增多。因此hLDA模型可将多个相关文档从词的维度降到主题的维度,在保存原有主题信息的前提下可大大减少数据的维度。建立模型之后,一个文档包含多个主题,这些主题被组织成一条主题路径,同时这条主题路径也被多个文档共享。这样可以完成挖掘主题以及实现主题聚类。对于第二项子任务,本文通过两个步骤完成,首先采用基于层次主题模型的文摘句抽取方法,抽取的原则是：1.句子所包含的主题在所有主题中重要性高。2.主题包含的多个句子中,所抽取的句子代表性强。3.句子中的词抽象性高。接下来要对所抽取出来的摘要句进行排序、润色等操作,使得最终摘要完整可读。本文采用一种通用的句子排序方法：时间排序法。这种方法一般选定某一个时间作为参考点,然后计算其他相对时间的绝对时间。本文在深入解析hLDA主题模型的理论基础上,首先通过文本聚类对比实验,验证了基于hLDA主题模型文本聚类的优越性。然后采用多特征融合的方法抽取句子并最终形成摘要,实验分析结果表明了该方法的有效性和实用性。

其他文献

浅析高中物理知识的适用条件

<正>学生在高中物理的学习过程中,经常会出现忽略物理知识的适用条件,造成物理概念应用不当、物理公式乱套和物理定律乱用,给学生学习物理带来很大的障碍,因此教师在进行物理

期刊

高中物理物理公式物理概念点电荷理想变压器机械能守恒定律物理定律库仑定律物理知识

中西爱情诗歌之比较分析

爱情是文学作品中亘古常新的主题;诗歌是文坛中最简明的一种文体。但由于地域与文化的差异,中西方在爱情诗歌的表达上稍有不同。本文具体从爱情观、诗歌内容、情感表达方式等

期刊

爱情比较内容情感表达中西文化诗歌“爱”

近年来国内无国籍问题研究述评

近年来国内关于无国籍问题的研究主要涉及无国籍人员的法律地位、无国籍人员的外交保护与救助、区域无国籍人员的产生原因及其影响、无国籍人员的生存困境及对策建议等方面,

期刊

无国籍研究现状研究展望

自发性气胸的中西医相关研究进展

自发性气胸(spontaneous pneumothorax,SP)是常见的胸外科疾病,但SP,特别是原发性自发性气胸(primary spontaneous pneumothorax,PSP)的发病机制、病因尚不完全明确。本文从

期刊

自发性气胸病因治疗

浅谈如何在初中数学课堂中运用问题教学手段

数学的心脏就是问题，任何数学知识都是由问题衍生出来，并在解决问题的过程中得到的。因此，初中数学教学必然离不开数学问题，那么，如果在初中数学课堂上开展有效的问题教学，成为广大

期刊

初中数学问题性教学问题情境提出问题解决问题

淦河桥梁方案设计研究

遵循＂适用、经济、安全、美观＂的桥梁设计基本原则,以咸宁市金桂西路跨淦河大桥为工程背景,提供了4种桥梁设计方案：无背索斜拉桥,预应力混凝土连续梁桥、预应力混凝土简支T梁桥

期刊

简支梁桥连续梁桥下承式系杆拱桥无背索斜拉桥

浅析日本机器人产业的现状

素有"机器人王国"之称的日本,在2008年全球经济危机之后,其机器人产业的市场结构发生了重大转变。2014日本政府拟把机器人作为经济增长战略的重要支柱。扩大工业机器人的应用

期刊

日本机器人产业现状

高层剪力墙结构设计要点分析

本文主要从笔者自身多年建筑设计工作经验出发,并结合案例,简要概述高层建筑结构设计以及剪力墙结构的一些特点,并在此基础上对设计过程中遇到的问题以及相关注意事项进行详

期刊

高层建筑结构剪力墙结构设计分析

工业发展作用下的黄石城市形态演变研究

城市空间是一种由很多对立面形成的空间语言,这些对立面反映了一个社会的体系①。既反映了各类城市用地在空间上的投影,又综合反映了城市经济、社会、文化等各个要素。伴随着

学位

工业发展城市形态演变黄石厂城关系工业遗产片区

小学语文低年级识字教学策略研究

围绕小学语文低年级识字教学的有效方法与策略进行了分析与探讨。旨在促进小学低年级识字教学效率的切实提高与进步。

期刊

小学语文低年级识字教学

基于HLDA模型的中文多文档摘要技术研究

与本文相关的学术论文