【摘 要】
:
PageRank是Web结构挖掘的经典算法,已在Google搜索引擎中取得了巨大成功。但其迭代次数多,时空消耗大,执行速度和收敛速度都还较慢。文中详细讨论了Hadoop-MapReduce的执行流
【基金项目】
:
云南省自然科学基金(2007F174M);云南大学研究生科研课题资助项目(ynny200928)
论文部分内容阅读
PageRank是Web结构挖掘的经典算法,已在Google搜索引擎中取得了巨大成功。但其迭代次数多,时空消耗大,执行速度和收敛速度都还较慢。文中详细讨论了Hadoop-MapReduce的执行流程及其内部实现机制后,提出了一种并行MapReduce实现矩阵分块的PageRank算法,其实质是减少MapReduce框架结构中Map阶段和Reduce阶段的迭代次数,从而减少时空开销。最后搭建Hadoop-MapReduce开源平台,模拟Web结构爬取,比较了传统算法和改进算法的性能。结果表明,改进后的算法迭代次数低,并行效率较高,在模拟环境中PageRank标识网页等级显示其优越性。
其他文献
地方电视台要在激烈的竞争中站稳脚跟,必须要有自己的精品栏目。电视人要有精品意识。但是一般来说由于地方台在经济上捉襟见肘,在思想观念上陈旧落后,在技术力量上人才匮乏,
分析目前国内外比较关注的船舶CO2排放和国际上对海上运输船舶CO2排放控制的要求和趋势。认为我国内河船舶CO2排放标准的制定和控制将对内河船舶运输带来较大的影响。从新建
以商业生物保鲜菌(干酪乳杆菌)作参照,研究益生菌Lactobacillus casei Zhang在酸奶发酵和贮藏期间对酵母和霉菌污染的控制,及其对酸奶品质的影响。结果表明:酸奶中添加3.00×
传统的电力变压器内部故障模型都是基于绕组的分析方法,忽略漏磁通、变压器铁芯涡流效应,且考虑铁芯非线性较少。为能进一步准确地描述变压器内部故障的暂态过程,并深入了解
2011年以来,科技型中小企业成为银行日益关注的群体,对于金融机构而言,先行一步布局科技型企业,尤其是科技中小企业,把握科技中小企业的群体特点、融资需求,找到开展科技中小
考察《诗经》风诗的地域和民俗 ,可以详尽地了解二千六百年前 ,春秋时代人民的生活情景、社会状况 ,进而了解整个古老的中国丰厚的民俗文化积淀和文明程度。因此本文考察了《
目的观察集束化护理预防血液透析导管相关血流感染及改善患者负性心理状态的效果。方法选择我院透析科收治的急性肾衰或终末期肾病接受血液透析治疗患者140例,随机分为观察组
文中通过对智能卡协议规范ISO/IEC 7816的研究,提出了一种应用于安全芯片的COS系统的设计方案。该系统能够有效地调用安全芯片中非对称算法RSA及国密对称算法SM1等算法资源。
研究了多馈入直流系统换相失败的机理,分析了不同类型交流故障下换相失败的特征。针对金沙江±800 kV级特高压直流输电(UHVDC)工程建立仿真模型,研究了金沙江送出工程逆变侧
由乳与乳制品中β-内酰胺酶的滥用现象出发,进而对β-内酰胺酶的概念、分类、来源、使用情况、危害、标准化现状、检测方法以及存在的问题等进行了论述,并探讨了如何应对这一