基于hadoop的网络爬虫技术研究

来源 :武汉理工大学 | 被引量 : 9次 | 上传用户:zbblyd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,互联网正处于飞猛的发展过程中,互联网所容纳信息的数量级很惊人,面对如此庞大数量的信息,如何能从中获得自己所想要的信息是我们目前所面临的一个巨大的挑战。搜索引擎是最主要的Web检索工具,在搜索引擎的抓取系统中,网络爬虫是最重要的组成部分,它的本质是一组计算机程序,能够自动且有条不絮的从互联网上进行搜索和抓取网页,并且无须人工的干预。然而面对如此巨大、纷繁复杂的信息及用户对检索结果和时间的要求,提高信息检索效率已成为一个急需解决的问题,然而仅依靠单个计算机的能力很难完成如此艰巨的任务,因此需通过多台单机采用分布式的方式协同工作完成。目前,大部分互联网公司都是在提供的开源Hadoop项目的基础上进行开发研究,类似Google比较著名的IT公司都建立了比较好的云计算平台。网络是数量庞大的超链接文本页面的集合,各种错综复杂的页面之间通过超链接形成了有组织的结构。通过对链接结构进行分析,可以从中获得丰富的资源和信息,要想提高网络爬虫的性能,就要加强对超链接分析技术的研究和探讨,因此对超链接的分析是非常有必要的。目前,在类似百度这样大型的搜索引擎中,在网络爬虫部分都有针对自己特性的超链接分析算法,其中最适用和普遍的是PageRank和HITS算法。然而HITS算法它是一种单纯对超链接分析的算法,完全忽略了文本内容的因素,对于不同的超链接没有进行区别,在本文中主要对比较经典的优化HITS算法进行了介绍。本文中对HITS算法的基本原理及算法的实现步骤进行了深入的研究,发现该算法存在一定的不足。在HITS算法中,在基集进行扩展时,对于来自不同站点的网页链接给予了不一样的影响权重值,这样就会选取大量无效的链接,这种情况直接导致比较权威的信息源受到影响,同时还会导致主题出现偏移的现象。在文本中,对于HITS所存在的缺陷,并结合了常用到的向量空间模型,提出了一种结合内容的分析算法——M-HITS算法。通过详细的实验进行了分析,得到的结论比已有的算法更好。
其他文献
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
《物流基础》是物流管理专业的专业基础课,在未来职业发展及课程体系中均非常重要。本文以《物流基础》课程标准为依据,按"合—分—合"的思路进行数字化课程改革。首先,打破
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
为充分发挥南阳原油微晶蜡含量高的资源优势,最大限度生产高附加值微晶蜡产品,南阳石蜡精细化工厂将以生产催化裂化原料为主要目的产品的0.15Mt/a超临界丁烷脱沥青装置改造为0.18M
美国Holly公司的子公司Navajo炼制公司将采用KBR公司的ROSE法超临界溶剂脱沥青工艺在其新墨西哥州3.75Mt/a Artesia炼油厂建设装置。该装置将用于减压渣油脱沥青,用该工艺抽提的
随着社会的进步和发展,不断改革教育形式,在小学数学教学过程中应用MS-EEPO有效教育理论,能够在一定程度上改变课堂教学氛围,提高可操作性,已经获得广大教师的关注和青睐。小学数
通过文献调研,分析了不同元素表面修饰对分子筛酸性、孔结构及分布、硅铝比等物理性质,以及对其烃类催化裂化氢转移反应活性、选择性的影响,探讨了分子筛表面修饰在降低催化裂化
党的十九大报告指出,要加强社区治理体系的建设,推动社会治理重心下移。城乡社区是社会治理的基础,既是治理的重点也是难点,在社会治理过程中有着至关重要的作用。随着经济社
采用行动导向教学方法,能够让学生主动参与到教学的各个环节,提高学生的综合实践能力,是一种先进的教学模式。本文详细描述了行动导向教学方法的具体实施步骤,并对正确执行行
经历了短短二十年的城市化和现代化进程,祖祖辈辈传承下来的农田瞬间被林立的高楼取代,伴随而来的是失去土地的农民和新建的新型社区。然而城市化率真的就能代表城市化水平吗?据