论文部分内容阅读
随着网络的日益普及,在线信息急剧增加,如何有效地获取和描述这些文本信息显得越来越重要。尽管用户通过搜索引擎可以快速获得丰富的文档,但要获取其中内容则需要消耗大量时间去阅读每一篇文档。自动文本文摘(Automatic Text Summarization)能够为用户提供一个原文档的压缩版本,旨在减轻用户的阅读压力;而多文档自动文摘(Multi-document summarization)是从多篇文档中提取主要的或用户需要的信息,其在信息检索IR(Information Retrieval)中的重要地位使其成为NLP(Natural Language Processing)的一个研究热点。本论文研究了多文档自动文摘中的四个关键问题,分别是:内容单元选择中的人工行为模式;基于句子抽取的文摘内容提取方法;句子抽取后的排序策略;对文摘质量中“内容连贯性”的评测模型。主要研究工作和成果概括如下:1.提出了基于基本要素(Basic Element, BE)的内容单元选择策略。通过分析BE的频率特征与其被选择作为文摘内容的概率之间的相关性,考察了人工文摘中内容选择的潜在行为模式。对DUC2004任务2所用数据集的统计分析结果显示,人工进行文摘内容选择时,对BE文档簇中出现频率高的BEH(BE Head)或BEHM(BE Head或Modify)更为青睐。2.分析了用户聚焦型文摘中,用户给定的话题对内容单元选择的影响。对DUC2005数据集的分析结果显示,人工进行文摘内容选择时会参考用户给定的话题,参考的模式是:对话题中出现的内容单元,在原文档簇中找到包含该内容单元的句子,并将该句子前后若干句子中的内容单元作为候选,选择其中出现频率高的内容单元作为文摘内容。3.提出了基于基本要素向量空间聚类的文摘句抽取方法,该方法的特点在于它是以基本要素为内容单元的,在DUC2004任务2上的评测结果显示,其效果要好于以词为内容单元。提出了聚类数目的自适应探测方法和从聚类中抽取代表句的全局搜索策略,该方法能自动探测聚类的个数,并从文摘全局的角度出发考察各类中哪个句子应该出现的文摘中。实验结果显示,自动探测聚类的数目比人工设定文摘的长度或聚类数要好。另外,在全局的角度从各类中选择文摘句比直接选择类中的质心句等局部方法性能更优越。为回避聚类数目难以确定的问题,还实验了一种基于演化计算的句子抽取方法。基于演化计算的方法视从原文档簇中抽取句子的过程为一个背包过程,并用演化计算的方法进行结果的优化,这种方法避免了通过聚类消除冗余时类的个数不易确定的问题。4.提出了一种文摘句排序混合模型,提高了文摘的可读性。该模型综合了文摘句之间的四种关系:时间关系、位置关系、依赖关系、话题关系,以句子为节点、句间关系为边,构建句子优先关系有向图并通过对已有的PageRank方法进行改进,对优先关系有向图中的各节点进行排序。对混合排序模型的评测,采用了两种自动评测的方法,一种是计算排序模型的排序结果与理想(人工)排序之间的距离,另一种考察排序模型对提高文摘质量的影响。在DUC2004任务2和任务5的数据集上评测可以发现,这种混合排序模型较其它参照模型要好,而且具有很好的鲁棒性。5.提出了基于BE关系网格的文摘内容连贯性评测模型。该模型以BE为内容单元,以BE中的“关系”为内容单元的语法角色,通过BE关系在BE关系网格中的转移概率来表达文摘内容的连贯性。以DUC2005数据集中的人工文摘为训练集,以其中的机器文摘为测试集,考察该模型对机器文摘内容连贯性的评测结果与人工评测结果之间的相关性。评测结果显示,以BE为内容单元,保留关系为“subj”、“obj”、“conj”、“nn”的BE时,模型评测结果与人工评测结果的Pearson相关系数为0.408,比文献中给出的实体网格模型得到的结果提高了约66%,这说明,基于BE关系网格的连贯性评测模型能够更好地抓住句子的语义信息和结构信息。