基于Hadoop的Nutch网页排序算法研究与实现

来源 :桂林电子科技大学学报 | 被引量 : 0次 | 上传用户:hanhaicang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了满足搜索引擎系统日益增长的高质量检索需求,针对Nutch搜索引擎框架没有实现Google的PageRank网页排序算法,分析了PageRank算法,并通过实验验证了PageRank算法的有效性,成功搭建Hadoop分布式集群,在Nutch框架中基于MapReduce分布式编程模式编码实现PageRank算法。实验结果表明,在Nutch搜索引擎系统中实现了PageRank算法后,系统的检索具有更高的准确率,能够更好地为用户提供检索服务。
其他文献
在口语翻译中,如何融入语义及语用信息一直是目前研究的难点之一。对话行为作为浅层话语结构描述的特征,近年来陆续应用于不同类型的翻译系统中。该文在介绍对话行为理论和口
通过对内蒙古牧区草地资源管理部门业务需求的调查,并结合锡林郭勒盟西乌珠穆沁旗草地资源管理工作的现状,重点对西乌珠穆沁旗草地的资源管理信息系统进行了设计。系统主要建
由于计算机的体积不断缩小,CPL散热器的散热效果对CPL工作性能的影响越加明显,在智能计算机的有限空间散热问题值得深入讨论和研究.本文利用AWSYS软件建立了CPL散热器的三维
一节公开课上,教师给出问题:f(x)=√x^2与g(x)=x是不是同一函数?
针对传统高速旋转目标三维成像算法存在成像效果差、计算复杂度大、鲁棒性差的缺点,本文提出一种加速的GRT-CLEAN高速自旋目标三维成像方法。采用广义Radan变换(GRT)与CLEAN
通过分析企业经营者与所有者之间的博弈关系,构建了企业经营者的声誉模型,探讨了声誉对企业经营者的激励效应,以及声誉与企业经营绩效之间的关系。一定时期内,在声誉效应的激励机
MXene是一种新型前过渡族金属碳(氮)化物,因其独特的二维层状结构,良好的导电性和稳定性,以及层间可以容纳离子和分子的特性,使其在储能领域受到广泛关注。通过插层处理,与高分
介绍了WZ-116系列水性无机富锌底漆在镇海大型战略原油储罐应用中所面临的重大挑战,以及相应的解决方案,使水性无机富锌底漆在这一大型防腐工程中得以成功实施。
目的探讨基层医院无管化经皮肾镜取石术治疗上尿路结石的临床效果。方法 85例上尿路结石患者,随机分为无管化组(44例)及肾造瘘管组(41例)。无管化组行无管化经皮肾镜取石术,
在Facebook宣称不想被贴上游戏平台的标签,也不想依赖应用程序这种小玩意获取收入的时候,中国的SNS同行却俨然成了社交应用程序商店。