基于改进HMM下自动摘要的生成

来源 :浙江理工大学 | 被引量 : 0次 | 上传用户:huangxz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代社会计算机技术不断发展,电子化的信息和文本咨询呈现爆炸性增长,网络也早已经成为人们获取和传递信息最重要的方式。要在海量的信息中快速锁定自己感兴趣的内容需要花费人们大量的时间,所以有效、简易的信息检索技术是当前互联网时代最需要的。而自动摘要(Automatic Summarization)生成技术是对信息进行总结、浓缩的有力工具。为计算机编写程序生成的自动摘要需要具有以下特点:(1)概括性的表达原文的主旨大意;(2)语言简洁明了,篇幅较短;(3)语义连贯通顺,具有可理解性和可读性。本文分析了传统的自动摘要生成方法,大多都是计算句子权重来提取相对比较重要的句子组成摘要,并没有考虑前后句子间的关联程度。所以本文将隐马尔科夫模型(HMM)中的状态转移特性运用到自动摘要中,使得生成的摘要更能符合上下文语境。并且在这基础上进一步改进传统HMM模型,加入了观察状态的后向释放概率,验证结果表明生成的摘要准确率有明显的提高。具体工作如下:首先,文中采用的是以web新闻文本作为对象来研究自动摘要的相关技术理论。由于web新闻网页的特殊性,实现了正则表达式和行块分布算法相结合的正文文本提取方法,并用最大正向匹配算法和TF-IDF词频统计算法对得到的正文文本进行分析处理。然后,对传统HMM进行深入研究,将隐藏状态序列按照句子的重要程度依次定为“A”、“B”、“C”、“D”、“E”,结合句子的词频、位置、标题相关程度、线索词四种句子特征进行HMM的建立并用于自动摘要的生成中。对比发现,该模型生成的摘要比基于普通句子权重方法生成的摘要更能体现上下文语境的连贯性。最后,将HMM模型根据web新闻文本的特点进行改进,使得观察状态的释放不仅跟t时刻的隐藏状态有关还与t+1时刻的隐藏状态有关,进一步细化了摘要句的提取概率。其中模型训练学习算法和Viterbi算法也根据模型的改进进行相应调整,实现基于改进HMM模型的自动摘要生成。实验对比改进HMM模型与传统HMM模型生成摘要的质量和运行时间,验证了改进HMM的可行性。
其他文献
目的探讨应用自回归滑动平均混合(ARIMA)模型进行南京市梅毒月发病率预测的可行性,建立梅毒发病率的预测模型,为制定防治策略提供依据。方法应用SPSS18.0软件对南京市2006-20
<正> 随着城市化进程的加快,城市规模的不断扩大,浙江省衢州市对城郊部分村镇进行了撤村建居试点工作,同时对"村改居"人员社会保险安置工作进行了探索.取得了一定的成效。 (
<正> 在五七年《诗刊》的第一期上,发表了毛泽东的诗词十八首。在其中描写长征的几首诗词中,《忆秦娥·娄山关》有它独特的风格。过去无论从思想内容来阐述它的意义,还是从艺
从建模方法与建模语言、模型转换、模型描述信息定义与组织管理、模型软件复用四个方面分析模型复用的研究现状,指出目前模型复用研究的不足;结合Web Services技术,分析了基
目的研究全面质量管理在护理管理中的具体应用。方法为了提高护理管理质量,本院决定实施全面质量管理模式,通过比较实施前与实施后的护理质量,观察全面质量控制模式建立后的
[目的]初步探讨季节差分ARIMA模型在结核发病率预测中的应用,为结核病防治提供参考依据。[方法]对四川省2004年1月~2007年6月的逐月肺结核发病率进行ARIMA建模拟合,采用2007年
目的探讨艾迪注射液在不耐常规化疗肿瘤患者中的应用效果。方法 78例恶性肿瘤患者,随机分为研究组和对照组,每组39例。两组恶性肿瘤患者均给予FOLFOX4化疗方案,研究组在FOLFO
建立了盘式无刷直流电动机的瞬变电磁场计算模型,通过变网络方程将盘式无刷直流电动机的外电路与电磁场耦合起来,并通过考虑盘式电机磁场三维分布的影响,对盘式电机的二维电磁场
<正> 对"城中村"以及大中城市郊区农村进行"村委会转制为社区居委会",简称"村改居"。"村改居"可扩大城市区划面积、为经营城市消除体制障碍。但由于政策滞后等原因,在目前"村