论文部分内容阅读
互联网上一天产生的信息量约有800EB,如果装在DVD光盘中要装1.68亿张。每天产生的数据中很大一部分是以文本的形式展现。因此,如何帮助用户迅速浏览和获取内容主题,提供有效的文本信息表示机制,是一项迫切而十分有意义的任务。这项任务的本质是对多个相似话题的文本进行降维,找出其中内容描述的重要主题,并以简短,可读性好的摘要形式呈现给用户。这其中包含两项子任务:一、找到多文档中的主题。二、形成简短且可读性良好的摘要。这两项任务是本文的重点研究内容。针对第一项子任务,本文采用层次潜在狄利克雷分配(hierarchical Latent Dirichlet Allocation, hLDA)[2]主题模型,该模型不仅能挖掘出文档中隐含的潜在主题,将主题根据抽象性高低构成层次关系,而且主题个数还可以随着数据集的增长而增多。因此hLDA模型可将多个相关文档从词的维度降到主题的维度,在保存原有主题信息的前提下可大大减少数据的维度。建立模型之后,一个文档包含多个主题,这些主题被组织成一条主题路径,同时这条主题路径也被多个文档共享。这样可以完成挖掘主题以及实现主题聚类。对于第二项子任务,本文通过两个步骤完成,首先采用基于层次主题模型的文摘句抽取方法,抽取的原则是:1.句子所包含的主题在所有主题中重要性高。2.主题包含的多个句子中,所抽取的句子代表性强。3.句子中的词抽象性高。接下来要对所抽取出来的摘要句进行排序、润色等操作,使得最终摘要完整可读。本文采用一种通用的句子排序方法:时间排序法。这种方法一般选定某一个时间作为参考点,然后计算其他相对时间的绝对时间。本文在深入解析hLDA主题模型的理论基础上,首先通过文本聚类对比实验,验证了基于hLDA主题模型文本聚类的优越性。然后采用多特征融合的方法抽取句子并最终形成摘要,实验分析结果表明了该方法的有效性和实用性。