基于主题模型与语义分析的多文档摘要研究

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:zx1112220
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的飞速发展,人们每天获得的信息量也与日俱增,这其中除了人们关注的主要信息外,还充斥着大量的冗余信息。而多文档摘要技术能够很好地帮助人们从大量信息中提取主要的有用信息,但大多国内外学者研究多文档摘要时多是采用平面关系的主题模型。布雷等人所提出的层次潜在狄利克雷分配模型,相比平面关系的主题模型而言,不仅能够挖掘出文档集的潜在主题特征,而且在各个主题之间建立起了层次结构的联系,尽管这种立体的层次化结构能够更好地表达在概括多个文档内容时需要的主题特征,但其建模结果呈现多样化,且效果无法得到足够的保证,甚至在相同参数设置和语料条件下其建模结果也具有一定的随机性。因此,本文在前人的基础上,总结了应用层次主题模型与语义分析的中文多文档摘要实验流程,提出了一种面向中文多文档的无监督层次潜在狄利克雷分配建模结果的自动评价方法,并通过人工评价的方式验证其有效性。接着运用自动评价方法,根据hLDA主题建模的结果反馈调节建模设置的各项超参,实现建模结果的不断优化。最后本文将hLDA主题建模的结果与其他模型的建模结果通过自动评价与人工评价进行了对比实验,验证了hLDA主题建模在中文文本聚类中展现的优越性,同时证实了自动评价方法的有效性。另一方面,本文从不同分词方法,是否去掉停用词,重复句子的不同处理方式,是否添加用户词典与进行同义词替换四个方面进行了对比实验,探究更加适合中文多文档摘要的hLDA主题建模的预处理流程。本论文研究得到国家自然科学基金项目“基于hLDA层次主题模型的中文多文档摘要研究”(项目批准号:61202247)和“面向不确定性的Web2.0用户创作内容管理研究”(项目批准号:71231002)的资助。
其他文献
本论文选题来源自科技部重点项目——国家科技基础条件平台门户应用系统。为适应新时期、形式的要求,2002年3月科学技术部提出了构建国家科技基础条件平台的设想,得到了国务院
现在计算机汉字字库通常还是由制作人员通过完全人工的方法进行制作,随着计算机、互连网和印刷技术的发展及汉字字库的不断扩充,提高汉字字库制作的效率成为一个非常重要的问题
科学数据库及其应用系统(简称“科学数据库”)是中国科学院“十五”信息化建设的重大项目。科学数据库采用逻辑上集中、物理上分布的建库和运行服务体系。随着资源数量的日益
随着个人计算设备和互联网的迅速发展,通信软件得到了越来越广泛的应用,并且逐渐成为人们日常生活中不可缺少的一个重要部分。目前学术界也逐步加强在高质量的音频、视频流媒体
随着网络的迅速发展,信息已经成为一种重要的战略资源,信息技术已经渗透到经济,金融,交通,银行各行各业,人们的决策越来越依赖信息。信息战已经成为未来的战争的重要形式。 在信
数据挖掘是当今计算机应用技术和理论研究中最热门的领域之一。数据挖掘技术经过十多年的发展,已经逐渐建立起系统的挖掘理论和成熟的挖掘技术。形成了以关联规则挖掘、分类规
本文在简单的介绍了入侵检测技术的概念和困难后,引入了安全事件管理的概念。首先阐述了安全事件管理目前的一些研究现状和它所涉及的一些技术,并介绍了关联算法。然后使用攻击
学位
供应商关系管理,是企业供应链上的一个基本环节,它建立在对企业的供方以及与供应相关信息完整有效的管理与运用的基础上,对供应商的现状、历史,提供的产品或服务,沟通、信息交流、
网格技术将分布的资源做统合并有效的利用。它为用户提供了访问、使用和控制分布在不同域的异构资源的能力,同时为网格安全带来新的问题。科学数据网格是以中国科学院十五信息
互联网技术和应用的不断发展,使得互联网承载了越来越多的信息。互联网的去中心化发展以及社交工具、自媒体工具在人们生活中的广泛使用也使得越来越多的互联网用户参与到了信