论文部分内容阅读
信息时代如何短时间内获取最有用信息以适应社会的生存和竞争的问题,越来越被人们重视。信息摘要作为该问题的主要解决手段受到广泛关注。由于自然语言文本是信息记录和传播的主要形式,因而文本摘要成为信息摘要的几大核心研究之一。目前文本摘要方法主要分为:基于浅层文本特征的方法和基于领域知识库的方法。基于领域知识库的方法存在许多难以克服的问题,包括文摘生成时间长、运行空间要求高、多语言间的转换存在障碍、存在过度理解、新概念和新领域不识别等。因此,对基于浅层的文本特征进行更精准的重要内容判断显得更有应用研究价值和实用意义。基于浅层文本特征的文本摘要方法对重要内容判断的准确性差强人意。导致该问题的主要原因有两个方面:第一,已有文本特征对重要内容的指示能力没有被充分利用。语言表达的多样性、指代关系和词形多变等情况,导致部分已有文本特征存在对文本中重要内容的重要度指示能力被干扰降低。第二,更有效的文本特征和算法没有被发现。语言学和功能语法学对文本中潜在的重要语义的判断能力没有被发觉和利用。针对以上问题主要研究工作如下:第一,提出基于左归处理的文本摘要算法。针对语言表达多样性导致的部分文本特征重要信息指示能力降低的问题,首先将文本的指代信息还原,然后将所有非停止词统一对齐同义词链的链首词。统一多变的表达和词形,降低特征计算和统计的噪声,以提高与词汇相关的文本特征重要度判断能力、改善文本摘要算法对重要内容判断的准确性。实验结果表明,基于左归处理的的文本摘要算法效果优于对比的已有文本摘要算法。可有效改善因语言表达多样性造成的文本特征的重要内容指示能力被干扰降低的问题。第二,提出左归潜在场景分析算法(LAPS)。基于功能语法构建三类语言模型,借助马尔科夫链计算潜在场景的全局重要度,依据潜在场景重要度判断重要文本内容,以更准确的判断文本中重要内容、改善文摘质量。实验结果表明,左归潜在场景分析算法对比已有算法有更好的文摘效果。证明基于语言学和功能语法学对文本重要内容进行更精准判断的可行性。第三,提出基于流形排序的左归全特征潜在场景分析算法(LAPSx)。用LAPS算法中的语言模型思路,将全部文本特征融合计算初始语言模型权重,运用流形排序算法计算全局模型权重,根据模型权重判定潜在场景重要度,依此分析重要文本内容。后采用二次融合方案弥补,由间接特征利用造成的文本特征指示能力传递衰减的问题,以更好的发挥全部文本特征的作用,取得更精准的重要文本内容、改善文摘质量。实验结果表明,基于流形排序的左归全特征潜在场景分析算法(LAPSx)比对比的融合方法更好的发挥全部文本特征对重要文本内容的指示作用,能取得更精准的摘要文本。