论文部分内容阅读
文本排序工作是改善多文档自动文摘系统结果可读性以及连贯性的重要手段。近年来,面向信息融合的文本排序工作逐渐成为研究人员关注的热点问题。排序工作是以句子单元为基础,对文本篇章信息所开展的高层次分析。在排序过程中,需要对文本连贯性以及可读性的相关因素进行分析,并针对相关因素生成合理的文本序列。本文结合人工经验,总结出文本序列两方面的相关因素,即相邻句子之间的衔接因素对连贯性的影响以及基于整篇文档的篇章因素的整体连贯性因素对连贯性的影响。本文根据这两方面因素提出了若干个排序模型。本论文提出了四个排序模型,分别是:基于相邻句间的连贯性分析的排序模型;基于拟合思想的排序模型;基于关联分析的排序模型;基于机器学习思路的综合排序模型。在构建模型之后分别对模型效果进行了评测以及分析:主要研究工作和成果概括如下:1.结合句子衔接性的评估策略,提出一个基于句间衔接性分析的排序模型。该模型通过在自然语言处理领域被广泛使用的余弦相似度评估方法,对相邻句子相关性进行量化分析,并利用信息量转移强弱程度的不同对相邻句子赋予一个方向系数。然后结合相关性以及方向性权值构建相邻句子之间的连贯性评估模型。由于句间衔接特性是局部信息,对全局范围内的序列分析能力不足。为了对全局大致序列进行划分,我们将源文档所有文档作为序列分析依据,通过分类器的方法,对待排序的文摘句进行了粗粒度的序列划分。最后,将粗粒度的全局划分方法与局部的细致序列划分方法相结合提出了一个综合排序模型。2.结合文档整体篇章性因素在连贯性分析中的作用,提出了一个基于文本篇章性因素的序列信息获取模型。该模型将源文档集中的每篇文章作为文摘句序列标准的一个来源,然后利用分类的方法,根据每篇源文档的信息构建了一个文摘句子的序列信息。再通过统一的预处理手段消除了序列数据中的无关因素,由于在源文档中获取的序列数据较少,而且其数据在单篇文档范围内以及源文档集的整体范围内都存在不确定性。因此提出一种基于拟合思想的排序模型,根据序列数据信息矩阵建立行数据所属变量的嵌套方程,然后根据可以预见的文本序列的整体信息,对待排序的文摘句子分别给出序列位置的预测值,然后根据序列预测值给出全局的序列结果。3.结合在源文档集中获取,并经过预处理的序列信息数据矩阵信息,提出了一种基于句子序列关联性构建的排序模型。首先,分析了每个文摘句在源文档不同文章中被划分的序列位置的相互关系。根据文摘句整体属于同一文本的特性,提出序列数据信息矩阵的行数据存在联动性,而且文摘句之间的联动特性与句子的序列差异并无特定关系。然后,利用经过预处理的数据中的相邻行数据构建两两句子之间的序列关联模型。最后,利用可以预见的文本序列整体信息结合关联模型逐步预测出每个文摘句的序列信息,并根据预测值给出全局的序列结果。4.结合已经构建的排序模型,基于机器学习的思路构建了一个综合排序模型。首先,根据排序结果的评测方法Kendall相关系数的特点构建了一个多维的结果空间,并将所有可能的序列结果一一映射到结果空间中的空间节点上。然后,经分析发现,代表序列结果的节点在空间几何分布上与Kendall系数的分布存在联动关系。通过这一联动关系我们利用已知排序效果的两个排序模型构建了两个线性无关的系数α与β,并构建了一个组合模型。最后,通过已知的排序结果训练组合模型以获取系数α与β的取值,然后对未知的序列结果进行序列分析,并获得最终的全局排序结果。