论文部分内容阅读
自动文摘的目的是利用计算机自动地从原始文档或文档集中提取压缩信息(通常为句子集合或段落),同时该信息能够保留原文所涵盖的主要内容。面对互联网信息爆炸式的增长,如何快速有效地获取有价值的信息成为摆在人们面前的一大难题,而自动文摘技术可以在一定程度上为信息过载提供一个有效的解决方案,提高人们获取信息的效率,因此自动文摘研究成为当前一个备受关注的热门研究课题。 为了提高文摘性能,研究人员从不同的角度提出了不同的解决方案。本文从文摘融合的角度出发,将多个基本文摘模型通过学习策略进行融合,从而从文摘模型层面对文摘句选择进行了研究。具体来讲,本文的研究工作主要包括以下几个方面: 1.本文提出了基于文摘融合的多文档自动文摘模型,该模型可以有效的融合多种基本文摘模型,在综合多种模型对句子的打分的基础上,计算句子最终的重要程度。不同于以往研究方法中面向特征层面的句子分析,本文提出的融合过程能够在模型层面对句子进行分析,从而有效的综合多个排序角度抽取文摘句。 2.在文摘融合模型的基础上,本文从无监督学习和有监督学习两个角度对融合过程进行了比较研究。无监督的融合过程通过一个两阶段学习过程来确定每个单独文摘模型的权值;有监督的融合过程则通过引入的人工标记数据利用改进的Ranking SVM模型来计算分配给每个文摘模型的权值。 3.本文实现了四个广泛应用的文摘模型,利用文摘融合框架融合了这四种基本的模型,以验证整体框架的有效性。此外,通过具体的实验对融合结果进行了分析。