论文部分内容阅读
摘要:元搜索引擎通过调用多个独立搜索引擎,从而提高了检索结果的覆盖面。本文简述了元搜索引擎的运作原理,研究了元搜索引擎的核心技术,阐述了它的局限性以及未来发展趋势,并对其局限性提出实用可行的优化方案。
关键词:元搜索引擎;成员搜索引擎;网页去重;结果排序
中图分类号:TP393.09 文献标识码:A 文章编号:1007-9599 (2012) 10-0000-02
一、引言
随着网络科技的迅猛发展,网络深入人们的生活。如何在网络中寻找需求度额信息显得尤为重要。
据Cyceillance于2000年7月10日公布的一项研究表明,目前Internet上已有21亿个唯一URL地址的公开网址,并且仍以每天超过700万的惊人速度增长。十余年过去,信息的膨胀与爆炸,使用户们不知所措。正如Wurman所说,信息爆炸给人们带来的事信息焦虑。用户对信息的需求各不相同,于是搜索引擎逐渐成为web用户不可或缺的工具。
元搜索引擎(meta search engine,简称MSE)作为一个新的搜索技术的研发领域,已经在实践中初步显示了其便捷性和重要性。虽然目前元搜索的研究有不断的发展,但是由于依赖各个独立的搜索引擎,元搜索引擎在处理查询输入和输出显示时均可能出现问题,如检准率不易控制检索时间过长,对高级检索的支持有待改进,检索结果不能很好体现等等。因此,元搜索的优化研究具有一定的时代意义和创新性。
二、元搜索引擎的原理
传统搜索引擎分为全文搜索引擎、目录索引、元搜索引擎。元搜索引擎又称多搜索引擎,通过一个统一的用户界面帮助用户在多个搜索引擎中选择和利用合适的(甚至是同时利用若干个)搜索引擎来实现检索操作,是对分布于网络的多种检索工具的全局控制机制。目前国内的搜索引擎发展迅速,市场也很广阔。但是,元搜索引擎的发展很缓慢,相关网站也比较少。元搜索引擎由3部分组成,包括请求提交、检索接口代理、检索结果显示。
(一)请求提交:
负责实现用户的检索要求,检索内容可以是单个关键词、短语,也可以是句子,可以由用户选择搜索引擎组合,也可以由默认的搜索引擎搜索,还可以由用户选择单个搜索引擎进行搜索。
(二)检索接口代理
由于各个独立的搜索引擎所采用的搜索算法和数据库存在很大差异,需要将用户检索的请求转化成各个成员搜索引擎所要求的格式,包括是否支持布尔检索、是否提供自然语言查询等高级检索服务,逐一做出适应各个源搜索引擎的转换,以提高检准率。
(三)检索结果显示
将所有来自源搜索引擎的搜索结果进行二次处理,包括对结果的去重和排序,并将处理的结果按照统一格式输出给用户。难点在于对数据的去重和排序。目前的检索处理方法主要是“将响应最快的搜索结果先返回”、“位置排序法”、“摘要排序法”等,各有利弊,检索处理算法好坏直接影响检索时间、检索覆盖率、排序质量等。
以上为元搜索引擎的组成部分,也是进行设计元搜索引擎的三个步骤。
三、现有元搜索引擎存在的缺陷
而对于国内现在已经存在的元搜索网站,例如搜魅网(someta)等,虽然能实现基本的功能,但是却有一定的缺陷,大多数存在两个方面的问题。
其一,是搜索覆盖面虽然很全面,但是搜索的时间很长,例如搜索“元搜索”这个名词,我们用了4家国内利用元搜索原理开设的搜索应网站进行了搜索测试,其中两家的搜索时间大于30秒,甚至无结果显示;
其二,是搜索时间较短,但是覆盖面较窄。我们同样对上述几个网站进行测试,有的返回的搜索结果只有单一搜索引擎的结果,并没有发挥元搜索真正的优势。以此来看,目前的元搜索引擎还没有真正发挥其本身的优势,为广大用户提供便利。
而随着网络的发展,越来越多的信息是人们通过Internet获取,据估计网络中有超过8亿个可索引的网页,大约15TB的信息量,而单个搜索引擎能覆盖的不超过全部可检索页的16%,因此元搜索引擎的开发势必成为将来的发展趋势。
四、优化元搜索引擎的主要功能特点
元搜索引擎的优化目的在于在可接受的搜索时间内,返回更多的信息量。所研究的重点在于如何设计一个元搜索引擎并对由多个独立搜索引擎结果的二次处理,如对检索结果的去重、权值排序等。
其核心思路在于:
1.请求提交:负责实现用户的检索要求;
2.检索接口代理:将用户检索的请求转化成各个成员搜索引擎所要求的格式;
3.检索结果显示:将所有来自源搜索引擎的搜索结果进行二次处理,包括对结果的去重和排序,并将处理的结果按照统一格式输出给用户;
4.个性化设计:元搜索引擎把信息数据收集起来,从用户个性化信息库获取个性化特征,比较分析,计算结果,返回给用户。
五、优势分析及可行性
元搜索引擎作为一个新的搜索技术的研发领域,已经在实践中初步显示了其便捷性和重要性。
由于web数据量太大,而且增长迅猛,单个搜索引擎的容量,处理能力难以扩展到较大规模,每个搜索引擎只能包含部分web文档。元搜素能够分散处理负载,增加检索范围。
元搜素具有较好的扩展性,可以加入多个成员搜索引擎,它使得各个成员搜苏引擎规模变小,性能更好。检索相应时间短,还可使得检索的内容保持最新。
有些web站点的内容不能用数据采集器抓取,检索更有效,用户为了找到满意的检索结果可能访问多个搜索引擎,直到找到合适结果,而元搜索引擎可以帮助用户自动完成这个任务。
六、结语
本文通过对固有元搜索引擎的研究,提出元搜索优引擎优化的方式。针对现有元搜索引擎的缺点进行分析,提出切实可靠地提出解决方案。
就元搜索引擎技术本身来说,如何实现和完善元搜索引擎的智能化,个性化,专业化,将是信息检索研究的着重点,而中文元搜索引擎还处于起步阶段,发展空间很大。相信在未来的网络的信息检索领域,元搜素引擎会有广泛的应用前景。
参考文献:
[1]Steve Lawrence,Lee Giles C.Accessibility of information onthe web J J.Nature science joumals,1999,400,(8):107
[2]张俭恭,陈定权,昊振新.关于搜索引擎与元搜索引擎的讨论[J].现代图书情报技术,2OO2,92,(2):338
[3]黄于蓝,王洪,徐端等.搜索引擎技术的新发展—多元搜索引擎系统[J].计算机工程,2002,28,(1):4-6
[4]陈俊杰,薛云,宋翰涛等.基于Agent的元搜索引擎的研究与设计[J].计算机工程與应用,2003,10:33-35
[5]Weiyi Meng,Clement Yu,King-Lup Liu Building efficient and effective Metasearch Engine
[6]Christos Faloutsos and Douglas Oard,A Survey of Information Retrieval and Filtering Methods
关键词:元搜索引擎;成员搜索引擎;网页去重;结果排序
中图分类号:TP393.09 文献标识码:A 文章编号:1007-9599 (2012) 10-0000-02
一、引言
随着网络科技的迅猛发展,网络深入人们的生活。如何在网络中寻找需求度额信息显得尤为重要。
据Cyceillance于2000年7月10日公布的一项研究表明,目前Internet上已有21亿个唯一URL地址的公开网址,并且仍以每天超过700万的惊人速度增长。十余年过去,信息的膨胀与爆炸,使用户们不知所措。正如Wurman所说,信息爆炸给人们带来的事信息焦虑。用户对信息的需求各不相同,于是搜索引擎逐渐成为web用户不可或缺的工具。
元搜索引擎(meta search engine,简称MSE)作为一个新的搜索技术的研发领域,已经在实践中初步显示了其便捷性和重要性。虽然目前元搜索的研究有不断的发展,但是由于依赖各个独立的搜索引擎,元搜索引擎在处理查询输入和输出显示时均可能出现问题,如检准率不易控制检索时间过长,对高级检索的支持有待改进,检索结果不能很好体现等等。因此,元搜索的优化研究具有一定的时代意义和创新性。
二、元搜索引擎的原理
传统搜索引擎分为全文搜索引擎、目录索引、元搜索引擎。元搜索引擎又称多搜索引擎,通过一个统一的用户界面帮助用户在多个搜索引擎中选择和利用合适的(甚至是同时利用若干个)搜索引擎来实现检索操作,是对分布于网络的多种检索工具的全局控制机制。目前国内的搜索引擎发展迅速,市场也很广阔。但是,元搜索引擎的发展很缓慢,相关网站也比较少。元搜索引擎由3部分组成,包括请求提交、检索接口代理、检索结果显示。
(一)请求提交:
负责实现用户的检索要求,检索内容可以是单个关键词、短语,也可以是句子,可以由用户选择搜索引擎组合,也可以由默认的搜索引擎搜索,还可以由用户选择单个搜索引擎进行搜索。
(二)检索接口代理
由于各个独立的搜索引擎所采用的搜索算法和数据库存在很大差异,需要将用户检索的请求转化成各个成员搜索引擎所要求的格式,包括是否支持布尔检索、是否提供自然语言查询等高级检索服务,逐一做出适应各个源搜索引擎的转换,以提高检准率。
(三)检索结果显示
将所有来自源搜索引擎的搜索结果进行二次处理,包括对结果的去重和排序,并将处理的结果按照统一格式输出给用户。难点在于对数据的去重和排序。目前的检索处理方法主要是“将响应最快的搜索结果先返回”、“位置排序法”、“摘要排序法”等,各有利弊,检索处理算法好坏直接影响检索时间、检索覆盖率、排序质量等。
以上为元搜索引擎的组成部分,也是进行设计元搜索引擎的三个步骤。
三、现有元搜索引擎存在的缺陷
而对于国内现在已经存在的元搜索网站,例如搜魅网(someta)等,虽然能实现基本的功能,但是却有一定的缺陷,大多数存在两个方面的问题。
其一,是搜索覆盖面虽然很全面,但是搜索的时间很长,例如搜索“元搜索”这个名词,我们用了4家国内利用元搜索原理开设的搜索应网站进行了搜索测试,其中两家的搜索时间大于30秒,甚至无结果显示;
其二,是搜索时间较短,但是覆盖面较窄。我们同样对上述几个网站进行测试,有的返回的搜索结果只有单一搜索引擎的结果,并没有发挥元搜索真正的优势。以此来看,目前的元搜索引擎还没有真正发挥其本身的优势,为广大用户提供便利。
而随着网络的发展,越来越多的信息是人们通过Internet获取,据估计网络中有超过8亿个可索引的网页,大约15TB的信息量,而单个搜索引擎能覆盖的不超过全部可检索页的16%,因此元搜索引擎的开发势必成为将来的发展趋势。
四、优化元搜索引擎的主要功能特点
元搜索引擎的优化目的在于在可接受的搜索时间内,返回更多的信息量。所研究的重点在于如何设计一个元搜索引擎并对由多个独立搜索引擎结果的二次处理,如对检索结果的去重、权值排序等。
其核心思路在于:
1.请求提交:负责实现用户的检索要求;
2.检索接口代理:将用户检索的请求转化成各个成员搜索引擎所要求的格式;
3.检索结果显示:将所有来自源搜索引擎的搜索结果进行二次处理,包括对结果的去重和排序,并将处理的结果按照统一格式输出给用户;
4.个性化设计:元搜索引擎把信息数据收集起来,从用户个性化信息库获取个性化特征,比较分析,计算结果,返回给用户。
五、优势分析及可行性
元搜索引擎作为一个新的搜索技术的研发领域,已经在实践中初步显示了其便捷性和重要性。
由于web数据量太大,而且增长迅猛,单个搜索引擎的容量,处理能力难以扩展到较大规模,每个搜索引擎只能包含部分web文档。元搜素能够分散处理负载,增加检索范围。
元搜素具有较好的扩展性,可以加入多个成员搜索引擎,它使得各个成员搜苏引擎规模变小,性能更好。检索相应时间短,还可使得检索的内容保持最新。
有些web站点的内容不能用数据采集器抓取,检索更有效,用户为了找到满意的检索结果可能访问多个搜索引擎,直到找到合适结果,而元搜索引擎可以帮助用户自动完成这个任务。
六、结语
本文通过对固有元搜索引擎的研究,提出元搜索优引擎优化的方式。针对现有元搜索引擎的缺点进行分析,提出切实可靠地提出解决方案。
就元搜索引擎技术本身来说,如何实现和完善元搜索引擎的智能化,个性化,专业化,将是信息检索研究的着重点,而中文元搜索引擎还处于起步阶段,发展空间很大。相信在未来的网络的信息检索领域,元搜素引擎会有广泛的应用前景。
参考文献:
[1]Steve Lawrence,Lee Giles C.Accessibility of information onthe web J J.Nature science joumals,1999,400,(8):107
[2]张俭恭,陈定权,昊振新.关于搜索引擎与元搜索引擎的讨论[J].现代图书情报技术,2OO2,92,(2):338
[3]黄于蓝,王洪,徐端等.搜索引擎技术的新发展—多元搜索引擎系统[J].计算机工程,2002,28,(1):4-6
[4]陈俊杰,薛云,宋翰涛等.基于Agent的元搜索引擎的研究与设计[J].计算机工程與应用,2003,10:33-35
[5]Weiyi Meng,Clement Yu,King-Lup Liu Building efficient and effective Metasearch Engine
[6]Christos Faloutsos and Douglas Oard,A Survey of Information Retrieval and Filtering Methods