互联网搜索引擎搜索策略和算法的研究

被引量 : 5次 | 上传用户:zhshp123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现阶段,互联网行业的蓬勃发展是有目共睹的。以百度、阿里、腾讯为首的互联网公司竞相角逐,抢占着每一片互联网市场,例如最近一年非常火的O2O电商(online to offline,即线下商品,线上交易),2014年过年非常红的微信红包、百度的大数据迁徙等,互联网都在深刻的改变着人们的生活。在互联网的世界里,有一块市场非常重要,它是互联网的入口,80%以上的互联网流量都需要经过它的分发,这就是搜索引擎。因为互联网公司的网址实在太多,网页数更是可怕,Google(谷歌)目前统计的数字是100亿,大部分想去各家网站的人都会选择通过搜索行为进行跳转。从中我们可看出搜索引擎的好坏直接决定着人们的互联网生活,决定着整个互联网流量的分发,对整个互联网生态都有很大的影响。本文先简单介绍了搜索引擎的背景和意义,说明了研究搜索引擎的重大意义。介绍了搜索引擎的国内外动态,重点介绍了Google和百度,这是现阶段最成功的两家搜索引擎,他们的现状对搜索生态的发展至关重要,最后引出了搜索引擎算法的现状和不足,并提出了解决办法。现阶段搜索引擎主要的搜索算法分爬取部分和排序部分。第二章重点介绍了现阶段的爬虫策略和排序策略,这些策略很多都是个人使用后的一些感触。通过对算法的分析,提出了新的算法:爬取部分的广度优先搜索的并行化思想以及排序策略部分的页面评分排序策略。第三章从产品化策略去分析搜索引擎,单从搜索算法上去看搜索,并不是一个搜索引擎的全部,和真正的搜索引擎相差很远。第三章通过在搜索引擎公司的实习,学到了一个真正的搜索引擎是什么样子的,单纯的算法只是其中的一小部分,提出通过产品化的策略提升搜索引擎的搜索效果,并进行了详细的介绍和分析。第四章主要是针对第二章提出的两种改进算法,在Linux系统上通过集成Nutch爬虫[20]、Solr服务器(主流搜索引擎数据存储服务器)、tomcat监控器、中文分词、前端页面等控件,实现了一个真实的搜索引擎,并对其中很多的代码进行修改,实现了广度优先并行化算法和页面评分排序策略,通过最后的实验数据分析,证明了对爬取效率和排序策略的提升。最后简单介绍了搜索引擎的发展方向,给出了一个比较良好的愿景。可以让人们享受到更好的搜索服务。搜索引擎还是有很大的发展空间的。很多技术现阶段都没有实现,例如个性化搜索、智能化搜索等。
其他文献
卫生服务可及性差是目前我国卫生工作中的主要问题之一。我国农村互助医疗是根据我国西部农村问题设计的一套综合解决措施,也可以认为是新型农村合作医疗的模式之一,其实施效
<正>2012年以来,在铁路推进体制机制转换、实施多元化经营战略的新形势下,呼和浩特铁路局党委宣传部牵头探索畅通职工诉求渠道的新路径,寻求完善职工思想问题闭环管理的新途
<正>2010年9月发现的菏泽元代沉船,不仅向世人展示了目前我国出土最大、最完整的元代内河船的风采,而且还出土了包括元青花在内的近160件遗物。遗物种类之多、器型之丰富、制
以往教学《数据图表分析》均是将教学目标落实在一般层面上,即停留在对知识与技能初步认识掌握阶段,本教学案例内容则是在上述基础上向前迈了一大步,让学生在掌握知识和技能
以心理学、组织行为学、管理学为理论基础,以价值观、态度、动机为行为特征的划分变量,对企业管理控制中管理者不同群体的行为特征进行了实证研究。通过聚类分析将控制对象划
<正>明末清初是中国鉴藏史上的特殊时段。明中期以后,嘉隆、万历诸帝因国库空虚,竟将书画当作"以充武官岁禄",①致使大部分内府古玩书画逐渐流散在外,极大地充实了私家收藏。
在新形势下,随着依法治国、以德治国方略不断向纵深发展,社会和公民对监狱干警自身执法水平和职业素质提出了新的要求。本文通过分析监狱干警职务犯罪的特点、原因入手,提出
自1972年TiO2的光催化性能被发现以来,人们在光能化学转换、光催化降解有机物、光化学合成、自清洁材料合成等方面开展了大量研究工作,尤其在有机物的降解方面受到高度重视。
培养学生信息技术素养是初中信息技术课程的教学目标,在电子表格图表的学习与制作中,把与学生的生活、学习、社会密切相关的知识做为初中信息技术课程的教学素材,并把数学图
在"三通两平台"的建设与应用过程中,对已经形成的区域性数字化教育资源实施整合,并且实现规模化、常态化应用是一项非常重要的工作。本文在对区域性数字化教育资源整合与应用