论文部分内容阅读
随着移动互联网的迅速崛起,用户经常使用移动终端在大批量文本信息中快速查找并获取有用的信息。这就要求信息服务供应商具备能够提供对大批量文本内容快速并且有效的挖掘,并且用简洁概括的方式向用户呈现重要的信息的能力。用户可以使用手机订阅自动文摘服务。该服务就可以自动从多篇文档中抽取出重要信息,并按照主题将信息呈现给用户。高质量的自动文摘内容脉络清晰,可读性强,能够多角度向用户呈现事件的来龙去脉,节省用户浏览信息的时间,同时能够减轻用户需要从多个信息源获取完整信息的负担。本文正是在这种技术趋势下,对面向主题的多文档自动文摘关键技术进行了探索性研究。本文的研究提出了以下创新性的理论和方法:1.提出一种新颖的基于LDA的建模方法来捕获文档集中的主题。为了能够定量评估该建模方法的有效性,本文使用该建模方法从大批量同类型文本集合中生成面向主题的文摘描述模板。首先提出一种基于LDA的实体主题模型,该模型用来同时对句子和句子中的词进行语义标注和聚类。其次,在已经聚类并且标注好的句子的依存解析树上利用频繁子树模式挖掘算法来构建面向主题的文摘描述模板。为了进一步验证生成模板的有效性,本文实现了一种基于模板的面向主题的自动文摘生成方法。2.提出一种非监督机器学习方法去生成面向主题的多文档自动文摘。在该方法中,提出了基于LDA的事件-主题模型,该模型扩展了的传统的LDA模型,通过计算单词在领域中出现的概率分布,以及在特定事件文档中出现的概率分布,有利于改善句子聚类的效果。其次使用扩展的LexRank算法对每个聚类簇中的句子进行排序,接着从每个聚类簇中使用整数线性规划生成能反映主题的代表性句子用来作为文摘。该方法的主要优势是把句子聚类,排序和选择有机地串联在一起。同时我们又改进了基于依存解析树句子压缩算法,使压缩效果显著提高。3.提出一种新颖的基于语言生成模型的自动文摘生成方法。该方法首先从句子的依存解析树中抽取重要的片段信息,其次利用这些片段信息同时结合英语句法知识对原始句子进行重构。句子重构的实现是利用英语句法结构把片段信息翻译成语言生成模型的输入,然后通过自然语言生成模型,生成包含片段信息的简单句子。最后使用整数线性规划方法从重构后的句子集合中选择出与主题最相关的句子集合。4.提出一种新颖的ccTAM(Cross collection topic aspect model)模型来对文档集中的主题和方面建模。然后利用该模型的输出,在二分图上使用迭代互增强来抽取互补式文摘。基于上述理论和方法,本文实现了一个面向主题的多文档自动文摘系统。该系统连续两年参加国际权威会议TAC组织的自动文摘系统评测,各项指标取得了良好效果。