论文部分内容阅读
摘要:独立搜索引擎的检索技术是在联机数据库检索技术的基础上发展起来的,它们实质上都是对信息集合与需求集合的匹配。本文着重讨论了独立搜索引擎的工作原理及其所包含的技术方法。
关键词:独立搜索引擎;Robot;IndexerSearcher;工作原理分析
WWW网上浩如烟海的信息资源,吸引着大量的用户。但,网民对特定信息的需求驱使人们想方设法摆脱信息查询大海捞针般的困境。1994年4月Web craWler搜索引擎在网上正式发布并开始服务。1996年后,搜索引擎进入了“容量建设期”。当前,搜索引擎正经历着从“数量累积阶段”到“质量精炼阶段”的变革。就现阶段来说,WWW网上的信息检索工具主要以独立搜索引擎为主(就是通常意义上我们说的搜索引擎),是相对于集合搜索引擎(或元搜索引擎)而称。独立搜索引擎是元搜索引擎与信息检索代理(agent)的技术基础,故对网络信息检索系统的研究是基于对独立搜索引擎的研究。
独立搜索引擎的检索技术是在联机数据库检索技术的基础上发展起来的,它们实质上都是对信息集合与需求集合的匹配,但独立搜索引擎面临着比联机数据库检索系统远为复杂的环境。网络信息的数量之巨、增长之快,异构性、分布性和动态性的趋势以及来源广泛,又缺乏质量控制,甚至有专门针对独立搜索引擎的陷阱行为等特点,决定了独立搜索引擎除了继承联机数据库检索的技术方法外,还必须设法解决这些复杂环境带来的问题。独立搜索引擎其工作原理是如何的?它包含有那些技术方法?(这里讨论的是狭义的搜索引擎)
一、独立搜索引擎的概念以及其基本结构机理分析
独立搜索引擎是指利用网络自动搜索技术软件(Robot)对Internet(主要是Web)网络资源进行搜集,并整理、组织从而形成管理与存储这些信息的索引数据库。基于该索引数据库,以超文本形式在Internet上面向网络用户提供网上信息资源检索和导航服务的一类信息服务系统。其目的只有一个:寻找相关性最高的网页。
独立搜索引擎作为处于用户层和WWW网络层之间的一个中间层次,一般地,我们可以把独立搜索引擎看成是一个双层的客户机/服务器与从客户机过渡到服务器的数据提取和组织模块的结构体系(Client/Server—Indexer—C/S)。其基本结构一般包括有数据采集、数据提取与组织、数据检索三个功能模块。
(如图所示)
1.数据采集模块,是指独立搜索引擎为客户机,通过一类自动搜索软件(Robot)按照一定的方式和要求向WWW站点等实际资源系统提出页面搜索请求。各类WWW站点等实际资源系统为服务器,将有关数据(如WWW页面或文档)作为应答提交给独立搜索引擎,形成一个临时网页数据库。
2.数据提取和组织模块,在这里独立搜索引擎通过一个数据分析与标引软件(Indexer)对临时网页数据库的有关数据进行分析,提取有检索或查询价值的内容,如网页关键词、网页的分类类别等,并对关键词进行权值计算,建成一个规范的索引数据库或便于浏览的层次型分类目录结构。使独立搜索引擎从客户机过渡到服务器。
3.数据检索模块,是指独立搜索引擎为服务器,根据网络用户在用户接口上提出的检索请求,通过一个数据库检索软件(Searcher)根據用户接口接受的用户请求,按照匹配的检索策略与相应的检索技术,并使用一个信息挖掘智能软件(UP Mining)提取用户相关信息为参照,反复检索自己的索引数据库获取符合用户需要的WWW信息。在用户接口上将这些WWW信息有序地提供给网络用户。
二、独立搜索引擎核心技术机理分析
从独立搜索引擎的基本结构机理分析结果看,其网上信息资源检索功能的实现主要涉及三个核心技术,Robot、Indexer与Searcher。
1.RobotiC/工作原理分析
Robot的主要功能是自动从Internet上的各Web站点抓取Web文档并从中提取一些信息来描述该文档。为独立搜索引擎站点的数据库服务器追加和更新数据提供原始数据。运行Robot时,Robot首先将精选一批高质量的URL(这些URL可以从以往访问过的或一些热门的Web站点上提取),并遵循HTTP协议将这些URL所代表的网页抓取回来,再从抓取到的这些网页中抽取出所有新的、示访问过的超级链接,并按照一定的算法选择出另一批URL,继续进行网页信息的收集:如此循环不止,直到满足需要,就可以实现海量网页的自动搜集。Robot的性能很大程度上决定了独立搜索引擎的“容量建设”。
2.Indexer的工作原理分析
Indexer的主要功能是理解Robot搜索的信息,从中抽出索引项,用于表示文档以及生成文档库的索引表。运行Indexer时,Indexer在HTML文件抽取索引项,使用索引算法赋予其一个等级值,并以此为依据建立索引数据库。Indexer的质量主要影响独立搜索引擎的有效性与查准率。
3.Searche的工作原理分析
Searcher主要是根据用户的检索请求,启动预先设置的各种信息检索模型在索引数据库中快速检出文档,进行文档与检索请求的相关度评价,将检索到的文档排序输出,并实现某种用户相关性反馈机制。
三、独立搜索引擎的用户接口
独立搜索引擎的用户接口是指用户与独立搜索引擎的人机界面,通常是一个Web应用程序。它是接收、解释用户的搜索请求,提交给Searcher,检索出的结果与相关评价有序列表显示交互层。用户接口界面的友好与否是用户能否最大限度使用独立搜索引擎各功能的关键。所以用户接口的“人性化”是智能搜索引擎的特征表现。
参考文献:
[1]赵丹群.信息存储与检索(下).北京大学出版社,1998:43—47页
[2]马静.搜索引擎机理剖析.中国信息导报2001,(6)
[3]洪光宗,王皓搜索引擎Robot技术实现的原理分析.现代图书情报技术2002,(1)
[4]朱俊卿.搜索引擎Google研究.现代图书情报技术,2002(1)
关键词:独立搜索引擎;Robot;IndexerSearcher;工作原理分析
WWW网上浩如烟海的信息资源,吸引着大量的用户。但,网民对特定信息的需求驱使人们想方设法摆脱信息查询大海捞针般的困境。1994年4月Web craWler搜索引擎在网上正式发布并开始服务。1996年后,搜索引擎进入了“容量建设期”。当前,搜索引擎正经历着从“数量累积阶段”到“质量精炼阶段”的变革。就现阶段来说,WWW网上的信息检索工具主要以独立搜索引擎为主(就是通常意义上我们说的搜索引擎),是相对于集合搜索引擎(或元搜索引擎)而称。独立搜索引擎是元搜索引擎与信息检索代理(agent)的技术基础,故对网络信息检索系统的研究是基于对独立搜索引擎的研究。
独立搜索引擎的检索技术是在联机数据库检索技术的基础上发展起来的,它们实质上都是对信息集合与需求集合的匹配,但独立搜索引擎面临着比联机数据库检索系统远为复杂的环境。网络信息的数量之巨、增长之快,异构性、分布性和动态性的趋势以及来源广泛,又缺乏质量控制,甚至有专门针对独立搜索引擎的陷阱行为等特点,决定了独立搜索引擎除了继承联机数据库检索的技术方法外,还必须设法解决这些复杂环境带来的问题。独立搜索引擎其工作原理是如何的?它包含有那些技术方法?(这里讨论的是狭义的搜索引擎)
一、独立搜索引擎的概念以及其基本结构机理分析
独立搜索引擎是指利用网络自动搜索技术软件(Robot)对Internet(主要是Web)网络资源进行搜集,并整理、组织从而形成管理与存储这些信息的索引数据库。基于该索引数据库,以超文本形式在Internet上面向网络用户提供网上信息资源检索和导航服务的一类信息服务系统。其目的只有一个:寻找相关性最高的网页。
独立搜索引擎作为处于用户层和WWW网络层之间的一个中间层次,一般地,我们可以把独立搜索引擎看成是一个双层的客户机/服务器与从客户机过渡到服务器的数据提取和组织模块的结构体系(Client/Server—Indexer—C/S)。其基本结构一般包括有数据采集、数据提取与组织、数据检索三个功能模块。
(如图所示)
1.数据采集模块,是指独立搜索引擎为客户机,通过一类自动搜索软件(Robot)按照一定的方式和要求向WWW站点等实际资源系统提出页面搜索请求。各类WWW站点等实际资源系统为服务器,将有关数据(如WWW页面或文档)作为应答提交给独立搜索引擎,形成一个临时网页数据库。
2.数据提取和组织模块,在这里独立搜索引擎通过一个数据分析与标引软件(Indexer)对临时网页数据库的有关数据进行分析,提取有检索或查询价值的内容,如网页关键词、网页的分类类别等,并对关键词进行权值计算,建成一个规范的索引数据库或便于浏览的层次型分类目录结构。使独立搜索引擎从客户机过渡到服务器。
3.数据检索模块,是指独立搜索引擎为服务器,根据网络用户在用户接口上提出的检索请求,通过一个数据库检索软件(Searcher)根據用户接口接受的用户请求,按照匹配的检索策略与相应的检索技术,并使用一个信息挖掘智能软件(UP Mining)提取用户相关信息为参照,反复检索自己的索引数据库获取符合用户需要的WWW信息。在用户接口上将这些WWW信息有序地提供给网络用户。
二、独立搜索引擎核心技术机理分析
从独立搜索引擎的基本结构机理分析结果看,其网上信息资源检索功能的实现主要涉及三个核心技术,Robot、Indexer与Searcher。
1.RobotiC/工作原理分析
Robot的主要功能是自动从Internet上的各Web站点抓取Web文档并从中提取一些信息来描述该文档。为独立搜索引擎站点的数据库服务器追加和更新数据提供原始数据。运行Robot时,Robot首先将精选一批高质量的URL(这些URL可以从以往访问过的或一些热门的Web站点上提取),并遵循HTTP协议将这些URL所代表的网页抓取回来,再从抓取到的这些网页中抽取出所有新的、示访问过的超级链接,并按照一定的算法选择出另一批URL,继续进行网页信息的收集:如此循环不止,直到满足需要,就可以实现海量网页的自动搜集。Robot的性能很大程度上决定了独立搜索引擎的“容量建设”。
2.Indexer的工作原理分析
Indexer的主要功能是理解Robot搜索的信息,从中抽出索引项,用于表示文档以及生成文档库的索引表。运行Indexer时,Indexer在HTML文件抽取索引项,使用索引算法赋予其一个等级值,并以此为依据建立索引数据库。Indexer的质量主要影响独立搜索引擎的有效性与查准率。
3.Searche的工作原理分析
Searcher主要是根据用户的检索请求,启动预先设置的各种信息检索模型在索引数据库中快速检出文档,进行文档与检索请求的相关度评价,将检索到的文档排序输出,并实现某种用户相关性反馈机制。
三、独立搜索引擎的用户接口
独立搜索引擎的用户接口是指用户与独立搜索引擎的人机界面,通常是一个Web应用程序。它是接收、解释用户的搜索请求,提交给Searcher,检索出的结果与相关评价有序列表显示交互层。用户接口界面的友好与否是用户能否最大限度使用独立搜索引擎各功能的关键。所以用户接口的“人性化”是智能搜索引擎的特征表现。
参考文献:
[1]赵丹群.信息存储与检索(下).北京大学出版社,1998:43—47页
[2]马静.搜索引擎机理剖析.中国信息导报2001,(6)
[3]洪光宗,王皓搜索引擎Robot技术实现的原理分析.现代图书情报技术2002,(1)
[4]朱俊卿.搜索引擎Google研究.现代图书情报技术,2002(1)