论文部分内容阅读
随着互联网的发展,人们在获得有效信息的同时,也被越来越多的冗余信息所困扰。因此迫切需要一个帮助人们快速浏览工具,该工具通过对相似文档集合的加工整理,将这些文档的重要的、全面的信息直接提供给用户,从而提高了人们获取信息的效率。因此多文档文摘的研究逐渐成为研究的热点。
多文档文摘是一种文本压缩技术,它将同一主题的文档进行汇总和整理,将多文档集合中的多次重复信息以一次出现在文摘中,其他与主题相关的信息根据重要性及压缩比依次进行抽取。
本论文通过对多文档集合的分析,打破由同一主题独立文本组成多文档集合的物理结构,通过将意义相同的句子组合在一起,建立多文档集合的子主题结构,在此基础上进行文摘句的抽取和排序工作。与传统的方法相比,具有以下优点:多文档集合以子主题的形式表示,使文摘内容具有更好的平衡性;对子主题进行比较和排序,按压缩比进行文摘句的优化抽取,将重要信息抽取出来,使得到的多文档文摘包含的信息简洁全面;多文档集合子主题形式的提出为多文档文摘的深入研究奠定基础。本论文着重对以下问题进行了研究:
1、对句子相似度计算进行深入研究,提出了多特征融合的句子相似度计算方法。句子相似度计算是多文档文摘的基础,本文首先根据句子不同特征分别计算句子的相似度,在此基础上,将这些特征进行融合,可以更准确的刻画句子之间相似度,为下一步工作奠定基础。
2、提出了根据阈值自动确定多文档集合子主题的方法。在句子相似度计算的基础上,将相似的句子合并为一个类,每类代表一个子主题。在阈值的训练以及聚类的方法上,分别对基于半偏相关系数为阈值的层次聚类和基于类间最小距离阈值的层次聚类进行研究,同时根据多文档集合相似度分布曲线,提出了描述多文档集合的泊松分布模型。
3、提出了句子的优化选择方法。为了保证文摘在有限的空间要求下,尽可能覆盖重要全面的信息,将文摘句的抽取过程分解为子主题的排序以及子主题内的句子的优化选择两个阶段。文中给出了子主题打分和排序方法,最后以信息覆盖率为优化目标,对子主题内句子优化选择。
4、提出了多文档文摘中文摘句的排序策略及流利度评价方法。为了使用户正确理解原文的内容,使生成的文摘具有较好的可读性,需要对文摘句排序方法进行研究。本论文提出了几种文摘句的排序方法,同时给出了流利度自动评价方法,并将该方法与人工评价方法进行比较,最终确定合适的排序方法。
本论文提出了针对同一主题相同时间不同网源的文本集合的多文档文摘方法,是对多文档自动文摘初步探索,取得了一定的研究成果。多文档文摘无论作为独立的系统还是作为搜索引擎的一部分都将有广泛的应用前景,随着互联网的发展和时代的进步会有更多地发展空间。