【摘 要】
:
针对串行PageRank算法在处理海量网页数据时效率低下的问题,提出一种基于网页链接分类的PageRank并行算法。首先,将网页按照网页所属网站分类,为来自不同站点的网页设置不同
【机 构】
:
广东工业大学计算机学院,广东省数字广东研究院
论文部分内容阅读
针对串行PageRank算法在处理海量网页数据时效率低下的问题,提出一种基于网页链接分类的PageRank并行算法。首先,将网页按照网页所属网站分类,为来自不同站点的网页设置不同的权重;其次,利用Hadoop并行计算框架,结合MapReduce分而治之的特点,并行计算网页排名;最后,采用一种包含3层:数据层、预处理层、计算层的数据压缩方法,对并行算法进行优化。实验结果表明,与串行PageRank算法相比,所提算法在最好情况下结果准确率提高了12%,计算效率提高了33%。
其他文献
《穆斯林的葬礼》充分展现了奇特而新异的回族文化。文章以《穆斯林的葬礼》文本为依托,以其中着墨颇多、描写突出的婚丧习俗为切入点,从婚姻、生死、宗教信仰等方面来探析该
豫剧是全国第一大地方剧种,其唱腔铿锵有力,酣畅淋漓,抑扬顿挫,韵味悠长。故事大多取材于人民大众或悲或喜的家长里短的现实生活,有着广泛的观众群。1956年,在“双百方针”的
本文探讨了目前钢结构抗震设计中存在的两个主要问题:其一是钢结构的地震作用,由于多高层钢结构房屋被列入“建筑抗震设计规范”(GB50011-2001)中时没有考虑钢结构延性好和弹
假载法是利用手册法计算拱桥截面内力时的一种常用方法。以实腹式拱桥为例,将拱桥恒载榘度划分为两部分,介绍了每一部分集度下的内力计算方法.进一步阐述了假载法的实质、工程意
<正>肾盂肾炎是临床上一种常见病和多发病,其是由尿路感染致病菌所引发的肾盂、肾盏及肾实质等部位的炎症[1]。输尿管梗阻是急性肾盂肾炎的主要发病原因之一,输尿管梗阻合并
以鲜牛乳和提取的香菇汁为主要原料,加入蔗糖、稳定剂等辅料进行调配,经杀菌后接种乳酸菌进行乳酸发酵,制成香菇酸奶,通过正交试验确定出发酵温度在42℃,接种量为4%,发酵时间
20世纪80年代中期以来,越来越多的文学作品聚焦于环境问题,表达作者对大自然的向往和对工业发展的厌恶。其中张炜的小说采用寓言体叙事手法,以中国神话﹑民间传说﹑传奇以及道家
目的:通过对大鼠膝骨关节炎模型的关节软骨病理学形态观察,研究独活寄生汤对骨关节炎的治疗效果,探讨其可能的病理学机制。方法:将60只SD大鼠随机分为空白组10只,实验组50只,
以1980年建立的砂壤质潮土土壤肥力和肥料效益长期定位试验(徐州点)为平台,研究5种不同施肥处理对甘薯品质性状、淀粉黏滞特性(RVA特性)和乙醇发酵特性的影响,并对这些指标的