论文部分内容阅读
[摘 要]本文对搜索引擎的历史、分类和发展进行了介绍。概述了搜索引擎发展的演进过程,介绍了当前业界主要的搜索引擎的类别:全文搜索、目录和元。并展望未来搜索引擎的发展趋势。着重介绍了当今优秀搜索引擎站点。
[关键词]搜索引擎 目录 元 搜索引擎站点
中图分类号:s-01 文献标识码:A 文章编号:1009-914X(2016)01-0157-01
一、引言
在互联网发展初期,网站相对较少,信息查找比较容易。然而伴随互联网爆炸性的发展,人们很难准确地找到所需的信息。而使用搜索引擎则可解决这一问题。
搜索引擎(Search Engines)意为信息查找的发动机,它以一定的方式在Internet中帮助用户查询信息,并返回相应的查询结果信息的技术和系统,是互联网上的可以查询网站或网页信息的工具。它包括信息搜集、信息整理和用户查询三部分。搜索引擎是互联网的第二大核心技术,涉及到信息检索、人工智能、计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等多领域的理论和技术。
二.搜索引擎的发展史
搜索引擎发展至今,大致经历了分类目录时代(人工时代)编辑(第一代)、文本检索时代(海量自动获取与排序清单)编辑(第二代)、第三代:整合分析时代(立体搜索与结果整合)编辑(第三代)、用户中心时代(以移动互联网为标志的个人需求精准搜索)编辑(第四代)、生活生态圈搜索时代(以物联网为标志的实体搜索)编辑(第五代)五个阶段。
三.搜索引擎分类介绍
根据搜索引擎提取数据的方法,可将搜索引擎系统可以分为三大类,分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。
1.全文搜索引擎
全文搜索引擎是一种纯技术型的搜索引擎。如google、AltaVista、Inktomi等,其原理是通过机器手(即Spider程序)到各个网站收集、存储信息,并建立索引数据库供用户查询。
2.目录索引类搜索引擎
目录索引是一种网站级搜索引擎,它虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。Yahoo就是这类搜索引擎的代表。
3.元搜索引擎
这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个预先选定的独立搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。
4、其他搜索引擎
但是,也有一些搜索引擎的操作方式不同于上述类型的搜索引擎:
(1)集成搜索引擎:它的原理则相当简单,甚至不需要多少专门的核心技术,其表现形式是:在一个浏览界面上同时链接了多个搜索引擎,用户检索时可以选择其中的部分或者全部搜索引擎,一次输入关键词,可以获得多个搜索引擎的检索结果。因此这种形式实际上并不是独立的搜索引擎,应该说是对现有搜索引擎的一种应用方式。
(2)门户搜索引擎:如AOL Search、MSN Search等虽然提供搜索服务,但自身即没有分类目录也没有网页数据库,其搜索结果完全来自其他引擎。
(3)免費链接列表(Free For All Links,简称FFA):这类网站一般只简单地滚动排列链接条目,少部分有简单的分类目录,不过规模比起Yahoo等目录索引来要小得多。
四、搜索引擎的发展趋势
1.提高搜索引擎对用户检索提问的理解
收集的网页数量和其数据库的更新速度存在着不可调和的矛盾。用户经常无法打开查询的结果。网络信息时刻变动,实时搜索几乎不可能。就是刚刚浏览过的网页,也随时都有更新、过期、删除的可能。网络信息收集与整理是搜索引擎工作的重要一部分。搜索引擎需要定期不断地访问网络资源。目前网络带宽不足,网络速度不够理想,遍历如此庞杂的网络时间花费是非常庞大的,这就是不能实时搜索的原因。
2.基于智能代理的信息过滤和个性化服务
互联网资源主要是以非规范文本或者多媒体形式存在的,如何让这些资源达到某种程度的结构化是提供快速准确搜索的客观的要求。也就是说如何表示互联网资源是搜索引擎首先要回答的问题。因此,下一代搜索引擎朝智能化发展。
到目前为止,查询输入的主要方式还是关键字,查询输出的主要也还是文本列表。笔者以为如何为用户的学习和工作营造一个个性化的信息空间,是未来搜索引擎应该追求的方向,这里包括如何表达信息需求,如何展示/浏览搜索结构,如何对个性化的信息需求建立模型等等。下一代搜索引擎朝个性化发展。
3、确定搜索引擎信息搜集范围,提高搜索引擎的针对性
搜索引擎的各个组成部分,除了用户接口之外,都可以进行分布:搜索器可以在多台机器上相互合作、相互分工进行信息发现,以提高信息发现和更新速度;索引器可以将索引分布在不同的机器上,以减小索引对机器的要求;检索器可以在不同的机器上进行文档的并行检索,以提高检索的速度和性能。其主要表现在以下几个方面
1)垂直主题搜索引擎:
垂直主题的搜索引擎以其高度的目标化和专业化在各类搜索引擎中占据了一系席之地,比如象股票、天气、新闻等类的搜索引擎,具有很高的针对性,用户对查询结果的满意度较高。作者认为,垂直主题有着极大的发展空间。
2)非www信息的搜索
提供FTP等类信息的检索
3)多媒体搜索引擎
多媒体检索主要包括声音、图像的检索
4.重视交叉语言检索的研究和开发
交叉语言信息检索是指用户用母语提交查询,搜索引擎在多种语言的数据库中进行信息检索,返回能够回答用户问题的所有语言的文档。如果再加上机器翻译,返回结果可以用母语显示。该技术目前还处于初步研究阶段,主要的困难在于语言之间在表达方式和语义对应上的不确定性。但对于经济全球化、互联网跨越国界的今天,无疑具有很重要的意义。
五.结论
搜索引擎的出现很大程度上改变了人们对信息的使用习惯,提高了信息的使用效能,它发生于因特网,但现在已经渗透到了各个行业,了解搜索引擎,研究搜索引擎,应用搜索引擎,具有广阔的发展空间。
参考文献
1、搜索引擎的类型
http://www.wm23.com/resource/R04/4006.htm
2、搜索引擎技术及趋势
http://media.ccidnet.com/media/ccu/406/02701.htm
3、浅析搜索引擎的原理及发展前景
http://www.studa.net/yingyong/070118/10093898.html
[关键词]搜索引擎 目录 元 搜索引擎站点
中图分类号:s-01 文献标识码:A 文章编号:1009-914X(2016)01-0157-01
一、引言
在互联网发展初期,网站相对较少,信息查找比较容易。然而伴随互联网爆炸性的发展,人们很难准确地找到所需的信息。而使用搜索引擎则可解决这一问题。
搜索引擎(Search Engines)意为信息查找的发动机,它以一定的方式在Internet中帮助用户查询信息,并返回相应的查询结果信息的技术和系统,是互联网上的可以查询网站或网页信息的工具。它包括信息搜集、信息整理和用户查询三部分。搜索引擎是互联网的第二大核心技术,涉及到信息检索、人工智能、计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等多领域的理论和技术。
二.搜索引擎的发展史
搜索引擎发展至今,大致经历了分类目录时代(人工时代)编辑(第一代)、文本检索时代(海量自动获取与排序清单)编辑(第二代)、第三代:整合分析时代(立体搜索与结果整合)编辑(第三代)、用户中心时代(以移动互联网为标志的个人需求精准搜索)编辑(第四代)、生活生态圈搜索时代(以物联网为标志的实体搜索)编辑(第五代)五个阶段。
三.搜索引擎分类介绍
根据搜索引擎提取数据的方法,可将搜索引擎系统可以分为三大类,分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。
1.全文搜索引擎
全文搜索引擎是一种纯技术型的搜索引擎。如google、AltaVista、Inktomi等,其原理是通过机器手(即Spider程序)到各个网站收集、存储信息,并建立索引数据库供用户查询。
2.目录索引类搜索引擎
目录索引是一种网站级搜索引擎,它虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。Yahoo就是这类搜索引擎的代表。
3.元搜索引擎
这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个预先选定的独立搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。
4、其他搜索引擎
但是,也有一些搜索引擎的操作方式不同于上述类型的搜索引擎:
(1)集成搜索引擎:它的原理则相当简单,甚至不需要多少专门的核心技术,其表现形式是:在一个浏览界面上同时链接了多个搜索引擎,用户检索时可以选择其中的部分或者全部搜索引擎,一次输入关键词,可以获得多个搜索引擎的检索结果。因此这种形式实际上并不是独立的搜索引擎,应该说是对现有搜索引擎的一种应用方式。
(2)门户搜索引擎:如AOL Search、MSN Search等虽然提供搜索服务,但自身即没有分类目录也没有网页数据库,其搜索结果完全来自其他引擎。
(3)免費链接列表(Free For All Links,简称FFA):这类网站一般只简单地滚动排列链接条目,少部分有简单的分类目录,不过规模比起Yahoo等目录索引来要小得多。
四、搜索引擎的发展趋势
1.提高搜索引擎对用户检索提问的理解
收集的网页数量和其数据库的更新速度存在着不可调和的矛盾。用户经常无法打开查询的结果。网络信息时刻变动,实时搜索几乎不可能。就是刚刚浏览过的网页,也随时都有更新、过期、删除的可能。网络信息收集与整理是搜索引擎工作的重要一部分。搜索引擎需要定期不断地访问网络资源。目前网络带宽不足,网络速度不够理想,遍历如此庞杂的网络时间花费是非常庞大的,这就是不能实时搜索的原因。
2.基于智能代理的信息过滤和个性化服务
互联网资源主要是以非规范文本或者多媒体形式存在的,如何让这些资源达到某种程度的结构化是提供快速准确搜索的客观的要求。也就是说如何表示互联网资源是搜索引擎首先要回答的问题。因此,下一代搜索引擎朝智能化发展。
到目前为止,查询输入的主要方式还是关键字,查询输出的主要也还是文本列表。笔者以为如何为用户的学习和工作营造一个个性化的信息空间,是未来搜索引擎应该追求的方向,这里包括如何表达信息需求,如何展示/浏览搜索结构,如何对个性化的信息需求建立模型等等。下一代搜索引擎朝个性化发展。
3、确定搜索引擎信息搜集范围,提高搜索引擎的针对性
搜索引擎的各个组成部分,除了用户接口之外,都可以进行分布:搜索器可以在多台机器上相互合作、相互分工进行信息发现,以提高信息发现和更新速度;索引器可以将索引分布在不同的机器上,以减小索引对机器的要求;检索器可以在不同的机器上进行文档的并行检索,以提高检索的速度和性能。其主要表现在以下几个方面
1)垂直主题搜索引擎:
垂直主题的搜索引擎以其高度的目标化和专业化在各类搜索引擎中占据了一系席之地,比如象股票、天气、新闻等类的搜索引擎,具有很高的针对性,用户对查询结果的满意度较高。作者认为,垂直主题有着极大的发展空间。
2)非www信息的搜索
提供FTP等类信息的检索
3)多媒体搜索引擎
多媒体检索主要包括声音、图像的检索
4.重视交叉语言检索的研究和开发
交叉语言信息检索是指用户用母语提交查询,搜索引擎在多种语言的数据库中进行信息检索,返回能够回答用户问题的所有语言的文档。如果再加上机器翻译,返回结果可以用母语显示。该技术目前还处于初步研究阶段,主要的困难在于语言之间在表达方式和语义对应上的不确定性。但对于经济全球化、互联网跨越国界的今天,无疑具有很重要的意义。
五.结论
搜索引擎的出现很大程度上改变了人们对信息的使用习惯,提高了信息的使用效能,它发生于因特网,但现在已经渗透到了各个行业,了解搜索引擎,研究搜索引擎,应用搜索引擎,具有广阔的发展空间。
参考文献
1、搜索引擎的类型
http://www.wm23.com/resource/R04/4006.htm
2、搜索引擎技术及趋势
http://media.ccidnet.com/media/ccu/406/02701.htm
3、浅析搜索引擎的原理及发展前景
http://www.studa.net/yingyong/070118/10093898.html