论文部分内容阅读
随着社会发展进入互联网时代,人们获得信息的途径变得多种多样,越来越多的人依赖互联网来获取所需要的信息。与此同时,信息量的高速增长为用户在信息检索方面带来了困扰,面对海量的检索结果用户往往无法高效准确地获得需要的信息。为此,本文专门针对Web新闻自动摘要问题展开研究。本文分析了TextRank算法与融合文本特征的摘要算法存在的不足,提出了一种新的融合BM25与文本特征的新闻摘要算法,并针对五种不同的算法进行对比实验。最后,使用提出的新算法、基于Heritrix框架开发了一个Web新闻摘要系统。具体研究内容如下:本文首先介绍了本研究课题的意义和背景、自动文本摘要在国内外的研究现状和主要成果。其次,介绍了自动文本摘要的相关知识,包括:自动摘要的分类与方法,以及如何利用网络爬虫进行新闻网页的采集和主流的网页正文抽取方法。在第3章,首先介绍了基于行块分布函数的网页正文抽取方法的主要思想以及该方法相对于传统方法的优点;其次,分析了TextRank算法在句子评分时仅仅考虑文本内在结构存在的不足,发现了TextRank中计算句子相似度方法的不可靠;在此基础上,提出了一种融合BM25与文本特征的新闻摘要算法;此外,还针对BM25计算结果可能出现负数的情况,以及BM25可能因为句子长度过长而失去意义的问题,对所提出算法做了进一步的优化。在第4章,本文利用ROUGE评价工具,通过实验将本文改进算法与其它相关算法进行了对比。实验结果表明,相对于其他方法,本文提出的融合BM25与文本特征的新闻自动摘要算法有更高的性能。最后,为了实际使用所提出的算法,本文利用Heritrix框架设计实现了一个Web新闻网页自动摘要系统,包括新闻网页采集、正文抽取、文本图模型表示和句子权重计算等模块。该系统可以实时采集新闻网页,对采集到的新闻网页自动提取摘要,并将摘要信息通过HTML页面进行显示。