基于Hadoop的互联网新闻阅读系统的设计与实现

来源 :南京航空航天大学 | 被引量 : 1次 | 上传用户:xianzhiwangsu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的快速发展使得人们的阅读模式发生了转变,传统的阅读模式如报纸、杂志已不再是主流,更多的人倾向于更加便捷的互联网阅读。然而网页不止包含了供用户阅读的正文信息,还有大量与正文无关的噪声信息。Gibson等人曾做过统计,噪声信息占整个网页版面的40%到60%;此外,互联网包含大量重复网页,北大天网搜索引擎的实验结果表明,4.3亿的中文网页经过划分后仅有6800万篇是不重复的。因此,如何在海量新闻网页中获取不重复的、纯粹的正文内容,对实现用户高效阅读尤为重要。本文以国内主流新闻网站为研究对象,实现了对新闻网页正文的提取、对重复网页的去除,并且设计了基于Hadoop的互联网新闻阅读系统,其主要工作如下:1)对于噪声信息问题,本文提出了一种基于虚词(FW)和DOM树结构相似性(DTSS)的网页正文提取算法。对五十个新闻网站进行对比实验,基于FW-DTSS算法的F-score在大多数情况下是高于VIPS和WPMTE的,并且对每个新闻网站都可以保持在96%以上,均值在99%以上,对有些网站则可以达到100%。2)对于重复网页问题,本文提出了一种基于虚词(FW)和BloomFilter(BF)的网页去重算法。对URL集进行对比实验,基于FW-BF的算法对完全重复网页、部分重复网页、完全不重复网页的F-Score均高于99%;基于FW-BF的算法与Bloom Filter、Feature code相比,F-score基本持平但对整个URL集的运行时间最短,这三种算法运行时间分别为44s、56s、212s。3)本文结合了FW-DTSS和FW-BF的算法,基于Hadoop平台设计了一个实时的互联网新闻阅读系统。由于每日的新闻数有限,仅选取国内十个典型的主流新闻网站作为代表,该阅读系统允许用户自行订阅其中的一个或几个,自动完成对网页正文的抓取、重复网页的去除,最终反馈给用户纯粹的新闻标题和正文。
其他文献
本文介绍了用ICP—AES同时测定面粉中多种微量元素的方法,并比较了英、美、中三国三种面粉中多种微量元素的含量。
为解决济南城市轨道交通建设与地质环境、保泉供水及建构筑物之间的矛盾,实现泉水保护与轨道交通建设双赢,研发了三维城市地质信息管理与应用系统。根据济南泉域富水岩溶的特
本文从棉花产业链的三个环节,即棉产品生产、棉产品流通和棉纺织的行业特点出发,结合产业国际竞争力相关理论及研究成果,初步建立一套我国棉花产业国际竞争力的评价指标体系。
【正】 滚滚长江东流水。历史的长河永无驻足之时,任何事物都会随着时代的变化而改观。党风亦然,她同样具有时代性。在我党历史上,有的作风随着那个时期政治任务的完成,而一
从古到今,人们为了追求长生不老耗费了大量的精力,随着科技日益发达,仍改变不了人最终的结局,虽延长了临终时期,但对于病重老人的心态关怀日益显得至关重要。
会议
深入开展技术创新推进“两个根本性转变”贾蔚文中国科技促进发展研究中心1995年,党和政府在制订“九五”计划和提出十五年远景目标中,作出了实现经济体制和经济增长方式“两个根本
三峡库区七万外迁移民全部迁往中国沿海十一个经济发达省市,其安置地无论是自然条件还是发展空间都比库区要好.本文将对这种全新的"贫困--富裕"的外迁移民搬迁模式的移民安置
【正】 我国两千多年来封建制度的历史惯性,对人们认识和思考问题的倾向性和凝固度的影响不可低估。封建的传统思想意识是新旧体制交替过程中必须逾越的障碍,只有摆脱封建主
<正>自朱元璋渡江之后,在南京以外所设军事机构先后有翼元帅府和分院(翼元帅府和部分分院后来改为卫)、(分)行省、行都督府、都卫和都司。对于相关机构出现的原因和设立情况
会议
近年来,移动通信及其相关产业迅猛发展,LTE(Long Term Evolution,长期演进,是第4代移动通信技术,简称4G)已经深入到人们的生活之中。中国移动、中国电信、中国联通三大运营商