论文部分内容阅读
摘要:搜索引擎作为人们生活工作、科研等必不可少的核心工具之一,它在很大程度上影响了人们的日常生活。在互联网技术飞速发展,信息急速增长等情况下,人们需要功能更加强大的搜索引擎。对此,该文介绍大数据分析和搜索引擎技术相结合带来的益处和优势。大数据搜索引擎技术也必然会成为搜索引擎的一个正确的发展方向,并为人们学习和生活提供更加有效的帮助。
关键词:搜索引擎;大数据分析;发展趋势
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2020)33-0041-03
开放科学(资源服务)标识码(OSID):
大数据时代已经到来,随着互联网的不断发展,人们无时无刻不在产生新的数据,并且堆积新的数据,人们也可以使用已经存在的大数据分析出新的数据,得到新的答案。搜索引擎在我们的现实生活中已经成为不可缺少的一部分。如谷歌、百度、搜狗等这些搜索引擎已经成为帮助人们解决问题查找答案的代名词,并且已经与人们的生活、学习和工作密不可分,无论是新闻、天气、疾病、文献或者某些名人的信息等人们想知道的信息,都可以从搜索引擎中得到答案。在两大技术广泛应用的时候,将大数据分析技术和搜索引擎技术相结合会更有利于人们搜索自己需要的答案。本文也在此猜想的基础上进行深入探索。
1 搜索引擎
1.1搜索引擎的定义和发展历史
搜索引擎是一种计算机程序,它是特定的搜索策略,用在文件、信息记载或数据库中进行搜索,并且它的核心模块一般包括爬虫、索引、检索和排序等。搜索引擎自身的特点包括信息查找和抓取的速度之快、挖掘信息的深度之深、检索出的内容具有多样性和广泛性等。
摘要搜索引擎是一种工具,它根据搜索字符串,搜索引擎返回结果,这被称为搜索引擎结果页(SERPs)。通常情况下,搜索引擎会得到正确的结果,并显示最相关的结果,所以搜索引擎没有固定的规则来显示准确的结果。
第一代搜索引擎具有的特殊要点是通过人工分类、存放网站的各种目录,并且用户可以通过多种方式寻找网站,因为在当时那个互联网刚刚兴起的时代,那时的信息与技术和现在根本无法相比。代表有Yahoo。
后来随着网络上的信息量快速增加和数据的大量出现,第二代搜索引擎开始利用关键字查询信息,基本上就是利用爬虫技术( Crawler)等来采集信息和索引网站。第二代最成功的代表就是Google。
1.2 搜索引擎的工作原理
现在的搜索引擎进行工作一般都是以下几点:1)搜索引擎蜘蛛访问Web,进行网页抓取;2)对抓取来的网页进行预处理然后再建立索引;3)在搜索界面进行查询服务。
因为现代搜索引擎搜索信息的速度快范围广,并且检索内容广泛,所以当代搜索引擎技术基本上可以无条件满足人们的各种各样的数据类型的检索,例如智能语言,不仅音频映像图片可以被检索,甚至人类的指纹、面部特征等都可以被检索。
1.3现代搜索引擎的不足之处
众所周知,人们可以通过使用搜索引擎来获得自己想知道的答案,但是现代的搜索仍然不是人们想要达到的最终目的。现代搜索引擎存在的不足之处有:(1)现代搜索引擎无法实时检索,对信息进行实时更新的能力比较差,主要是现代网络信息量巨大。(2)信息无法准确地分类,因为信息建立索引数据库的同时,接触到的信息量过于巨大,所以会导致分类不准确。
因此,人们在使用搜索引擎时,为了提高搜索的效率,经常会使用一些搜索技巧,例如在Coogle搜索中使用逻辑符号搜索就是一种老套的技术:利用双引号(“”)查询完全符合关键字串的网站、在关键词的前面使用加号 就表明搜索结果中的网页上必须有该关键字、在关键词的前面使用减号一就表明在查询结果中不能出现该关键词。
通过搜索引擎优化技术SEO(Search Engine Optimization)也是一种好的方法,可以有效地提升搜索的覆盖面,但是它还是不能准确到其中最重要的一点,并且不能够通过数据来分析搜索到的结果的其他可能性。
2 将大数据的分析融入搜索引擎中
2.1 大量数据堆积
由于人们已经到了离不开信息和数据的地步,所以大量数据开始从各个方面产生,并且堆积在一起。人工整理的数据主要掌握在政府部门、机关组织和一些企业手里;社交产生的数据,例如QQ、微信等聊天数据或者是邮件、App产生的数据;个人的云应用产生的数据,许多用户现在已经选择将数据保存在云端;物联网产生的数据,例如水文监测、监控录像等物联网应用,每时每刻都在产生大量的数据。现在正处于大数据的时代,人们可以轻易地利用信息技术快速地了解更多的信息。例如,用户用手机搜索某样东西,数据会上传到大数据中心,数据库会分析信息并反馈给应用程序,系统就会清楚地了解到要向不同用户推荐的内容。
2.2 大数据对搜索的价值
2.2.1 大数据分析的用途
大数据分析基本分为可视化分析( Analytic Visualizations)、数据挖掘算法( Data Mining Algorithms)、预测性分析能力(Pre-dictive Analytic Capabilities)、语义引擎(Semantic Engines)、数据质量和数据管理、数据存储、数據仓库。
2.2.2 将两种技术相融合的价值
根据笔者多方面查找的资料和对这两种技术的分析发现,由于现在人们使用的搜索引擎还无法和大数据分析深度相结合,不能更直观地展现给使用者,所以没有了解过大数据分析的人使用搜索引擎是无法查得出未来事情的,只能凭借一味地猜想。因此,需要将搜索引擎更进一步的智能化,使抓取的网页和提取的数据更加的精确,由搜索引擎自我进行大数据分析并给出结果,这样子在人们搜索时就可以得到更深入有效的答案,不需要人们自己去查找数据库分析数据得出结论。即在现有搜索引擎的基础上,增加对“大数据”处理和分析的能力。
关键词:搜索引擎;大数据分析;发展趋势
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2020)33-0041-03
开放科学(资源服务)标识码(OSID):
大数据时代已经到来,随着互联网的不断发展,人们无时无刻不在产生新的数据,并且堆积新的数据,人们也可以使用已经存在的大数据分析出新的数据,得到新的答案。搜索引擎在我们的现实生活中已经成为不可缺少的一部分。如谷歌、百度、搜狗等这些搜索引擎已经成为帮助人们解决问题查找答案的代名词,并且已经与人们的生活、学习和工作密不可分,无论是新闻、天气、疾病、文献或者某些名人的信息等人们想知道的信息,都可以从搜索引擎中得到答案。在两大技术广泛应用的时候,将大数据分析技术和搜索引擎技术相结合会更有利于人们搜索自己需要的答案。本文也在此猜想的基础上进行深入探索。
1 搜索引擎
1.1搜索引擎的定义和发展历史
搜索引擎是一种计算机程序,它是特定的搜索策略,用在文件、信息记载或数据库中进行搜索,并且它的核心模块一般包括爬虫、索引、检索和排序等。搜索引擎自身的特点包括信息查找和抓取的速度之快、挖掘信息的深度之深、检索出的内容具有多样性和广泛性等。
摘要搜索引擎是一种工具,它根据搜索字符串,搜索引擎返回结果,这被称为搜索引擎结果页(SERPs)。通常情况下,搜索引擎会得到正确的结果,并显示最相关的结果,所以搜索引擎没有固定的规则来显示准确的结果。
第一代搜索引擎具有的特殊要点是通过人工分类、存放网站的各种目录,并且用户可以通过多种方式寻找网站,因为在当时那个互联网刚刚兴起的时代,那时的信息与技术和现在根本无法相比。代表有Yahoo。
后来随着网络上的信息量快速增加和数据的大量出现,第二代搜索引擎开始利用关键字查询信息,基本上就是利用爬虫技术( Crawler)等来采集信息和索引网站。第二代最成功的代表就是Google。
1.2 搜索引擎的工作原理
现在的搜索引擎进行工作一般都是以下几点:1)搜索引擎蜘蛛访问Web,进行网页抓取;2)对抓取来的网页进行预处理然后再建立索引;3)在搜索界面进行查询服务。
因为现代搜索引擎搜索信息的速度快范围广,并且检索内容广泛,所以当代搜索引擎技术基本上可以无条件满足人们的各种各样的数据类型的检索,例如智能语言,不仅音频映像图片可以被检索,甚至人类的指纹、面部特征等都可以被检索。
1.3现代搜索引擎的不足之处
众所周知,人们可以通过使用搜索引擎来获得自己想知道的答案,但是现代的搜索仍然不是人们想要达到的最终目的。现代搜索引擎存在的不足之处有:(1)现代搜索引擎无法实时检索,对信息进行实时更新的能力比较差,主要是现代网络信息量巨大。(2)信息无法准确地分类,因为信息建立索引数据库的同时,接触到的信息量过于巨大,所以会导致分类不准确。
因此,人们在使用搜索引擎时,为了提高搜索的效率,经常会使用一些搜索技巧,例如在Coogle搜索中使用逻辑符号搜索就是一种老套的技术:利用双引号(“”)查询完全符合关键字串的网站、在关键词的前面使用加号 就表明搜索结果中的网页上必须有该关键字、在关键词的前面使用减号一就表明在查询结果中不能出现该关键词。
通过搜索引擎优化技术SEO(Search Engine Optimization)也是一种好的方法,可以有效地提升搜索的覆盖面,但是它还是不能准确到其中最重要的一点,并且不能够通过数据来分析搜索到的结果的其他可能性。
2 将大数据的分析融入搜索引擎中
2.1 大量数据堆积
由于人们已经到了离不开信息和数据的地步,所以大量数据开始从各个方面产生,并且堆积在一起。人工整理的数据主要掌握在政府部门、机关组织和一些企业手里;社交产生的数据,例如QQ、微信等聊天数据或者是邮件、App产生的数据;个人的云应用产生的数据,许多用户现在已经选择将数据保存在云端;物联网产生的数据,例如水文监测、监控录像等物联网应用,每时每刻都在产生大量的数据。现在正处于大数据的时代,人们可以轻易地利用信息技术快速地了解更多的信息。例如,用户用手机搜索某样东西,数据会上传到大数据中心,数据库会分析信息并反馈给应用程序,系统就会清楚地了解到要向不同用户推荐的内容。
2.2 大数据对搜索的价值
2.2.1 大数据分析的用途
大数据分析基本分为可视化分析( Analytic Visualizations)、数据挖掘算法( Data Mining Algorithms)、预测性分析能力(Pre-dictive Analytic Capabilities)、语义引擎(Semantic Engines)、数据质量和数据管理、数据存储、数據仓库。
2.2.2 将两种技术相融合的价值
根据笔者多方面查找的资料和对这两种技术的分析发现,由于现在人们使用的搜索引擎还无法和大数据分析深度相结合,不能更直观地展现给使用者,所以没有了解过大数据分析的人使用搜索引擎是无法查得出未来事情的,只能凭借一味地猜想。因此,需要将搜索引擎更进一步的智能化,使抓取的网页和提取的数据更加的精确,由搜索引擎自我进行大数据分析并给出结果,这样子在人们搜索时就可以得到更深入有效的答案,不需要人们自己去查找数据库分析数据得出结论。即在现有搜索引擎的基础上,增加对“大数据”处理和分析的能力。