基于MapReduce的Web链接结构分析算法研究

来源 :兰州理工大学 | 被引量 : 2次 | 上传用户:nrykapnry
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网信息技术的飞速发展,Web网页信息正在呈现指数级的增长趋势。面对如此巨大的Web信息资源库,搜索引擎已成为用户获取网络信息资源的重要工具。Web链接结构分析算法,作为网络搜索引擎的重要组成部分,用于通过分析Web页面间链接结构来对Web网页信息做潜在的重要性评估。然而,随着数据计算量的不断增加,传统集中式架构的Web链接结构分析算法不仅在计算和存储方面存在着瓶颈,且存在系统的稳定性和扩展性不高等问题。近年来,处理海量数据的Hadoop分布式平台,以其可靠性、高效性、高扩展性等优势,已成为学术界研究的热点。深入研究Web链接结构分析的经典算法PageRank、HITS,以及Hadoop、Map/Reduce等理论知识,将Web链接结构分析算法和Hadoop平台相结合,并做了如下工作:1.在Hadoop平台上,对PageRank算法每次迭代都要多次访问HDFS, I/O的消耗大;每次MapReduce操作,在混合阶段和排序阶段处理Key的数量大,算法效率低等问题进行研究。并提出了基于块结构划分的方法,将网页之间的链接关系转换成网络块间的关系,大大减少了算法迭代过程中需要处理的Key的数据量,从而减少了Map和Reduce操作的调用次数,降低了I/O传输造成的开销,提高算法执行效率。2.在Hadoop分布式平台上,对传统HITS算法矩阵存储链接结构以及规范化处理效率低问题进行研究,根据Hadoop平台特性,重新设计为基于MapReduce的HITS算法,改变结点信息的存储方式,突破传统HITS算法中Hub值和Authority值公共耦合的繁杂关系,并测试和分析了改进后的HITS算法。
其他文献
随着无线通讯技术的发展和随车装载设备功能和性能的不断提升,自治车联云(Autonomous Vehicular Cloud, AVC)的概念应运而生。车联云的建立是传统车联网(Vehicular Ad-hoc Ne
膜计算是一种分布式、并行计算模型,又被称为P系统。膜计算旨在从生命细胞的结构和功能以及组织、器官和高级生物组织中细胞群的协作中抽象出计算模型,具有分布式、极大并行性
近几年来,互联网技术飞速发展,社交格局发生新变化,人们更多的依赖网络来表达自己的观点看法。这使得网络中的信息数量海量的增长,人们也越来越多的依赖网络来获取资料,而当
随着大数据时代的到来,Internet时时刻刻都在释放出海量数据。信息的日积月累,无论是围绕着企业的商业决策,还是个人的生活消费习惯等信息,都变成了以各种各样形式存储的数据
随着最近这些年以来,计算机图形学技术的高速发展,以及计算机硬件性能的急速提升真,人们对于视觉效果的逼真性要求也随之越来越高。在游戏和电影领域,逼真的渲染效果变得越来
Internet的快速发展,基于Web的应用与人们的生活和工作越来越紧密联系在一起。很多传统的信息系统被移植到互联网上,微博、电子商务、社交网站等新型的应用模式也在层出不穷
随着信息技术不断发展,云教育、在线辅导等技术逐渐成为热点。由于传统在线教育辅导系统习题结构单一、难于数据挖掘、学习效率低等诸多因素导致其难以普及应用。智能教育辅
语音是人类交流的最重要媒介,而多数语音出现在噪声环境之中。听力正常的人可以不受噪声干扰,而听力障碍者和语音识别系统都难以处理混有噪声的语音,这就需要语音分离处理。
现今,随着人口密度的不断增加,在人群比较拥挤的公共场合,群体异常事件的发生概率也逐渐增大。为了使损失降到最低,及时、有效的报警,成为了解决这一难题的关键因素。智能视
随着无线通信技术的飞速发展,具有低功耗、低成本、自组织独特优势的无线传感器网络(Wireless Sensor Network, WSN)应运而生,并迅速成为21世纪最具影响的十大技术之一,其应