大数据对于搜索引擎技术重要性的探究

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:studycomputer1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:搜索引擎作为人们生活工作、科研等必不可少的核心工具之一,它在很大程度上影响了人们的日常生活。在互联网技术飞速发展,信息急速增长等情况下,人们需要功能更加强大的搜索引擎。对此,该文介绍大数据分析和搜索引擎技术相结合带来的益处和优势。大数据搜索引擎技术也必然会成为搜索引擎的一个正确的发展方向,并为人们学习和生活提供更加有效的帮助。
  关键词:搜索引擎;大数据分析;发展趋势
  中图分类号:TP311 文献标识码:A
  文章编号:1009-3044(2020)33-0041-03
  开放科学(资源服务)标识码(OSID):
  大数据时代已经到来,随着互联网的不断发展,人们无时无刻不在产生新的数据,并且堆积新的数据,人们也可以使用已经存在的大数据分析出新的数据,得到新的答案。搜索引擎在我们的现实生活中已经成为不可缺少的一部分。如谷歌、百度、搜狗等这些搜索引擎已经成为帮助人们解决问题查找答案的代名词,并且已经与人们的生活、学习和工作密不可分,无论是新闻、天气、疾病、文献或者某些名人的信息等人们想知道的信息,都可以从搜索引擎中得到答案。在两大技术广泛应用的时候,将大数据分析技术和搜索引擎技术相结合会更有利于人们搜索自己需要的答案。本文也在此猜想的基础上进行深入探索。
  1 搜索引擎
  1.1搜索引擎的定义和发展历史
  搜索引擎是一种计算机程序,它是特定的搜索策略,用在文件、信息记载或数据库中进行搜索,并且它的核心模块一般包括爬虫、索引、检索和排序等。搜索引擎自身的特点包括信息查找和抓取的速度之快、挖掘信息的深度之深、检索出的内容具有多样性和广泛性等。
  摘要搜索引擎是一种工具,它根据搜索字符串,搜索引擎返回结果,这被称为搜索引擎结果页(SERPs)。通常情况下,搜索引擎会得到正确的结果,并显示最相关的结果,所以搜索引擎没有固定的规则来显示准确的结果。
  第一代搜索引擎具有的特殊要点是通过人工分类、存放网站的各种目录,并且用户可以通过多种方式寻找网站,因为在当时那个互联网刚刚兴起的时代,那时的信息与技术和现在根本无法相比。代表有Yahoo。
  后来随着网络上的信息量快速增加和数据的大量出现,第二代搜索引擎开始利用关键字查询信息,基本上就是利用爬虫技术( Crawler)等来采集信息和索引网站。第二代最成功的代表就是Google。
  1.2 搜索引擎的工作原理
  现在的搜索引擎进行工作一般都是以下几点:1)搜索引擎蜘蛛访问Web,进行网页抓取;2)对抓取来的网页进行预处理然后再建立索引;3)在搜索界面进行查询服务。
  因为现代搜索引擎搜索信息的速度快范围广,并且检索内容广泛,所以当代搜索引擎技术基本上可以无条件满足人们的各种各样的数据类型的检索,例如智能语言,不仅音频映像图片可以被检索,甚至人类的指纹、面部特征等都可以被检索。
  1.3现代搜索引擎的不足之处
  众所周知,人们可以通过使用搜索引擎来获得自己想知道的答案,但是现代的搜索仍然不是人们想要达到的最终目的。现代搜索引擎存在的不足之处有:(1)现代搜索引擎无法实时检索,对信息进行实时更新的能力比较差,主要是现代网络信息量巨大。(2)信息无法准确地分类,因为信息建立索引数据库的同时,接触到的信息量过于巨大,所以会导致分类不准确。
  因此,人们在使用搜索引擎时,为了提高搜索的效率,经常会使用一些搜索技巧,例如在Coogle搜索中使用逻辑符号搜索就是一种老套的技术:利用双引号(“”)查询完全符合关键字串的网站、在关键词的前面使用加号 就表明搜索结果中的网页上必须有该关键字、在关键词的前面使用减号一就表明在查询结果中不能出现该关键词。
  通过搜索引擎优化技术SEO(Search Engine Optimization)也是一种好的方法,可以有效地提升搜索的覆盖面,但是它还是不能准确到其中最重要的一点,并且不能够通过数据来分析搜索到的结果的其他可能性。
  2 将大数据的分析融入搜索引擎中
  2.1 大量数据堆积
  由于人们已经到了离不开信息和数据的地步,所以大量数据开始从各个方面产生,并且堆积在一起。人工整理的数据主要掌握在政府部门、机关组织和一些企业手里;社交产生的数据,例如QQ、微信等聊天数据或者是邮件、App产生的数据;个人的云应用产生的数据,许多用户现在已经选择将数据保存在云端;物联网产生的数据,例如水文监测、监控录像等物联网应用,每时每刻都在产生大量的数据。现在正处于大数据的时代,人们可以轻易地利用信息技术快速地了解更多的信息。例如,用户用手机搜索某样东西,数据会上传到大数据中心,数据库会分析信息并反馈给应用程序,系统就会清楚地了解到要向不同用户推荐的内容。
  2.2 大数据对搜索的价值
  2.2.1 大数据分析的用途
  大数据分析基本分为可视化分析( Analytic Visualizations)、数据挖掘算法( Data Mining Algorithms)、预测性分析能力(Pre-dictive Analytic Capabilities)、语义引擎(Semantic Engines)、数据质量和数据管理、数据存储、数據仓库。
  2.2.2 将两种技术相融合的价值
  根据笔者多方面查找的资料和对这两种技术的分析发现,由于现在人们使用的搜索引擎还无法和大数据分析深度相结合,不能更直观地展现给使用者,所以没有了解过大数据分析的人使用搜索引擎是无法查得出未来事情的,只能凭借一味地猜想。因此,需要将搜索引擎更进一步的智能化,使抓取的网页和提取的数据更加的精确,由搜索引擎自我进行大数据分析并给出结果,这样子在人们搜索时就可以得到更深入有效的答案,不需要人们自己去查找数据库分析数据得出结论。即在现有搜索引擎的基础上,增加对“大数据”处理和分析的能力。
其他文献
摘要: 随着科学技术的不断进步,计算机技术水平也得到了较好的发展,计算机网络在社会生活中的应用逐渐普及,其能够有效地提高相关工作的准确性以及便捷性,已经成为现代化生活中必不可少的一部分,有效地推动了现代化社会的进步。本文将基于当前大数据下的计算机网络安全进行探究,从大数据时代的发展特点出发,指出当前计算机网络在使用当中面临的一些安全隐患,并针对此提出具体的改进建议,希望能够有效地保障用户的计算机使
<正> 急性扁桃体炎多发于气候多变的春秋两季,以小儿和青少年为多,婴儿和五十岁以上者少见。溶血性链球菌是引起急性扁桃体炎的主要细菌,其次为肺炎双球菌及葡萄球菌等。这些
摘要:高校科研管理系统是专为高等院校教师科研管理工作搭建的网络服务平台,意在通过有效的科研管理机制实现其高效化、精确化管理。利用该网络服务平台,最大限度地规避了传统的科研管理模式所带来的弊端与不足。该系统采用B/S结构,以MySQL为数据库开发平台,采用PHP技术完成高校科研管理系统的设计。  关键词:高校科研管理;B/S结构;PHP技术  中图分类号: TP311 文献标识码:A  文章编
摘要:随着网络数据量和请求量的不断增加,导致出现数据存储、使用等方面的问题。为了使数据库性能得到提高,该文通过数据库算法与Web技术设计软件应用框架。首先分析数据库算法与Web服务,基于缓存层利用Web数据响应处理方法改善数据库缓存性能。在实际使用的过程中利用此软件应用框架,对缓存性能进行分析,实现系统各层。  关键词:Web;数据库算法;软件应用框架  中图分类号:TP311 文献标识码:A  
在当今二十一世纪,我们的生活条件越来越好,而地球的环境问题却越来越严峻,地球是人类赖以生存的唯一家园,保护生态环境更是我国的基本国策之一。因此,重视环保教育解决环境
摘要:常言道:兴趣是最好的老师。孔子说:“知之者不如好之者,好之者不如乐之者。”这一道理也充分体现在新课程标准下的小学英语教学中。教师既要培养和保持学生较浓的学习兴趣,渲染英语课堂气氛,又要在教学过程中精心设计教案,想方设法以创新、吸引、巧妙的教学手法培养他们的学习兴趣。因此,我们在各教学环节中必须设计出充满趣味性的课堂,并寓教于乐,要使学生乐在其中,亦学在其中,让他们把最大的热情积极投入到学习中
作为世界封建法制代表的中华法系曾创造出了许多行之有效的司法制度,录囚制度就是其中之一。我国的录囚制度在西汉时期才正式确立,随即后世一直沿用不废。随着朝代的更迭,历
目的探讨氯吡格雷联合硝苯地平与阿司匹林联合硝苯地平应用治疗变异型心绞痛的临床疗效和安全性及远期心血管事件的发生率。比较氯吡格雷联合硝苯地平及阿司匹林与阿司匹林联
随着社会对中学生教学教育越来越高的关注度,现如今,如何能够对中学生实现高效的教学是目前很多的教育专家和教师共同探索的重要课题。本文就高中生物教学中开发和利用学习过
目的观察60岁以上老年腹股沟疝患者局部麻醉下施行无张力疝修补术(A组)与传统疝修补术(B组)的疗效。方法对2003年7月至2008年7月在笔者所在医院接受治疗的168例老年腹股沟疝患者