论文部分内容阅读
现代社会计算机技术不断发展,电子化的信息和文本咨询呈现爆炸性增长,网络也早已经成为人们获取和传递信息最重要的方式。要在海量的信息中快速锁定自己感兴趣的内容需要花费人们大量的时间,所以有效、简易的信息检索技术是当前互联网时代最需要的。而自动摘要(Automatic Summarization)生成技术是对信息进行总结、浓缩的有力工具。为计算机编写程序生成的自动摘要需要具有以下特点:(1)概括性的表达原文的主旨大意;(2)语言简洁明了,篇幅较短;(3)语义连贯通顺,具有可理解性和可读性。本文分析了传统的自动摘要生成方法,大多都是计算句子权重来提取相对比较重要的句子组成摘要,并没有考虑前后句子间的关联程度。所以本文将隐马尔科夫模型(HMM)中的状态转移特性运用到自动摘要中,使得生成的摘要更能符合上下文语境。并且在这基础上进一步改进传统HMM模型,加入了观察状态的后向释放概率,验证结果表明生成的摘要准确率有明显的提高。具体工作如下:首先,文中采用的是以web新闻文本作为对象来研究自动摘要的相关技术理论。由于web新闻网页的特殊性,实现了正则表达式和行块分布算法相结合的正文文本提取方法,并用最大正向匹配算法和TF-IDF词频统计算法对得到的正文文本进行分析处理。然后,对传统HMM进行深入研究,将隐藏状态序列按照句子的重要程度依次定为“A”、“B”、“C”、“D”、“E”,结合句子的词频、位置、标题相关程度、线索词四种句子特征进行HMM的建立并用于自动摘要的生成中。对比发现,该模型生成的摘要比基于普通句子权重方法生成的摘要更能体现上下文语境的连贯性。最后,将HMM模型根据web新闻文本的特点进行改进,使得观察状态的释放不仅跟t时刻的隐藏状态有关还与t+1时刻的隐藏状态有关,进一步细化了摘要句的提取概率。其中模型训练学习算法和Viterbi算法也根据模型的改进进行相应调整,实现基于改进HMM模型的自动摘要生成。实验对比改进HMM模型与传统HMM模型生成摘要的质量和运行时间,验证了改进HMM的可行性。