基于Hadoop的互联网新闻阅读系统的设计与实现

来源 :南京航空航天大学 | 被引量 : 1次 | 上传用户：xianzhiwangsu

【摘要】

：

互联网的快速发展使得人们的阅读模式发生了转变,传统的阅读模式如报纸、杂志已不再是主流,更多的人倾向于更加便捷的互联网阅读。然而网页不止包含了供用户阅读的正文信息,

【作者】

：

马雷鸣

【出处】

：

南京航空航天大学

【发表日期】

：

2017年01期

【关键词】

：

Hadoop 网页提取网页去重虚词 Bloom Filter

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

互联网的快速发展使得人们的阅读模式发生了转变,传统的阅读模式如报纸、杂志已不再是主流,更多的人倾向于更加便捷的互联网阅读。然而网页不止包含了供用户阅读的正文信息,还有大量与正文无关的噪声信息。Gibson等人曾做过统计,噪声信息占整个网页版面的40%到60%;此外,互联网包含大量重复网页,北大天网搜索引擎的实验结果表明,4.3亿的中文网页经过划分后仅有6800万篇是不重复的。因此,如何在海量新闻网页中获取不重复的、纯粹的正文内容,对实现用户高效阅读尤为重要。本文以国内主流新闻网站为研究对象,实现了对新闻网页正文的提取、对重复网页的去除,并且设计了基于Hadoop的互联网新闻阅读系统,其主要工作如下:1)对于噪声信息问题,本文提出了一种基于虚词(FW)和DOM树结构相似性(DTSS)的网页正文提取算法。对五十个新闻网站进行对比实验,基于FW-DTSS算法的F-score在大多数情况下是高于VIPS和WPMTE的,并且对每个新闻网站都可以保持在96%以上,均值在99%以上,对有些网站则可以达到100%。2)对于重复网页问题,本文提出了一种基于虚词(FW)和BloomFilter(BF)的网页去重算法。对URL集进行对比实验,基于FW-BF的算法对完全重复网页、部分重复网页、完全不重复网页的F-Score均高于99%;基于FW-BF的算法与Bloom Filter、Feature code相比,F-score基本持平但对整个URL集的运行时间最短,这三种算法运行时间分别为44s、56s、212s。3)本文结合了FW-DTSS和FW-BF的算法,基于Hadoop平台设计了一个实时的互联网新闻阅读系统。由于每日的新闻数有限,仅选取国内十个典型的主流新闻网站作为代表,该阅读系统允许用户自行订阅其中的一个或几个,自动完成对网页正文的抓取、重复网页的去除,最终反馈给用户纯粹的新闻标题和正文。

其他文献

电感耦合等离子体发射光谱法测定面粉中多种元素

本文介绍了用ICP—AES同时测定面粉中多种微量元素的方法,并比较了英、美、中三国三种面粉中多种微量元素的含量。

期刊

ICP-AES面粉微量元素测定

济南泉域岩溶地区多源多尺度数据三维耦合模型及应用

为解决济南城市轨道交通建设与地质环境、保泉供水及建构筑物之间的矛盾,实现泉水保护与轨道交通建设双赢,研发了三维城市地质信息管理与应用系统。根据济南泉域富水岩溶的特

期刊

济南泉域岩溶地区MAPGIS软件三维耦合模型轨道交通保泉供水Jinan spring areaKarst areaMapGIS softwareth

我国棉花产业国际化竞争力评价指标体系的构建

本文从棉花产业链的三个环节，即棉产品生产、棉产品流通和棉纺织的行业特点出发，结合产业国际竞争力相关理论及研究成果，初步建立一套我国棉花产业国际竞争力的评价指标体系。

期刊

棉花产业国际化竞争力评价指标体系产业国际竞争力中国产品生产产品流通构建环节研究成果

新党风论

【正】滚滚长江东流水。历史的长河永无驻足之时,任何事物都会随着时代的变化而改观。党风亦然,她同样具有时代性。在我党历史上,有的作风随着那个时期政治任务的完成,而一

期刊

党风政治任务党风建设改革开放长江经济建设路线社会主义初级阶段生产力发展商品经济

如何做好病重临终老人心态管理

从古到今,人们为了追求长生不老耗费了大量的精力,随着科技日益发达,仍改变不了人最终的结局,虽延长了临终时期,但对于病重老人的心态关怀日益显得至关重要。

会议

深入开展技术创新推进“两个根本性转变”

深入开展技术创新推进“两个根本性转变”贾蔚文中国科技促进发展研究中心１９９５年，党和政府在制订“九五”计划和提出十五年远景目标中，作出了实现经济体制和经济增长方式“两个根本

期刊

技术创新经济体制转变经济增长方式转变

三峡库区外迁移民安置方式研究

三峡库区七万外迁移民全部迁往中国沿海十一个经济发达省市,其安置地无论是自然条件还是发展空间都比库区要好.本文将对这种全新的"贫困--富裕"的外迁移民搬迁模式的移民安置

期刊

库区外迁移民分散安置集中安置

政治民主与观念更新

【正】我国两千多年来封建制度的历史惯性,对人们认识和思考问题的倾向性和凝固度的影响不可低估。封建的传统思想意识是新旧体制交替过程中必须逾越的障碍,只有摆脱封建主

期刊

观念更新政治民主封建主义为人民服务民主政治社会主义法制民族意识行政领导者人民真正当家作主认识和思考

明初地方军事机构的演变及前后职掌(提要)

<正>自朱元璋渡江之后,在南京以外所设军事机构先后有翼元帅府和分院(翼元帅府和部分分院后来改为卫)、(分)行省、行都督府、都卫和都司。对于相关机构出现的原因和设立情况

会议

郑州市某区LTE网络的簇优化方案设计与实现

近年来,移动通信及其相关产业迅猛发展,LTE(Long Term Evolution,长期演进,是第4代移动通信技术,简称4G)已经深入到人们的生活之中。中国移动、中国电信、中国联通三大运营商

学位

簇优化LTE优化方案RSRPSINR

基于Hadoop的互联网新闻阅读系统的设计与实现

与本文相关的学术论文