论文部分内容阅读
互联网的快速发展使得人们的阅读模式发生了转变,传统的阅读模式如报纸、杂志已不再是主流,更多的人倾向于更加便捷的互联网阅读。然而网页不止包含了供用户阅读的正文信息,还有大量与正文无关的噪声信息。Gibson等人曾做过统计,噪声信息占整个网页版面的40%到60%;此外,互联网包含大量重复网页,北大天网搜索引擎的实验结果表明,4.3亿的中文网页经过划分后仅有6800万篇是不重复的。因此,如何在海量新闻网页中获取不重复的、纯粹的正文内容,对实现用户高效阅读尤为重要。本文以国内主流新闻网站为研究对象,实现了对新闻网页正文的提取、对重复网页的去除,并且设计了基于Hadoop的互联网新闻阅读系统,其主要工作如下:1)对于噪声信息问题,本文提出了一种基于虚词(FW)和DOM树结构相似性(DTSS)的网页正文提取算法。对五十个新闻网站进行对比实验,基于FW-DTSS算法的F-score在大多数情况下是高于VIPS和WPMTE的,并且对每个新闻网站都可以保持在96%以上,均值在99%以上,对有些网站则可以达到100%。2)对于重复网页问题,本文提出了一种基于虚词(FW)和BloomFilter(BF)的网页去重算法。对URL集进行对比实验,基于FW-BF的算法对完全重复网页、部分重复网页、完全不重复网页的F-Score均高于99%;基于FW-BF的算法与Bloom Filter、Feature code相比,F-score基本持平但对整个URL集的运行时间最短,这三种算法运行时间分别为44s、56s、212s。3)本文结合了FW-DTSS和FW-BF的算法,基于Hadoop平台设计了一个实时的互联网新闻阅读系统。由于每日的新闻数有限,仅选取国内十个典型的主流新闻网站作为代表,该阅读系统允许用户自行订阅其中的一个或几个,自动完成对网页正文的抓取、重复网页的去除,最终反馈给用户纯粹的新闻标题和正文。