论文部分内容阅读
信息检索是人们上网的主要目的之一,但目前两大主流中文搜索引擎Baidu和Google还存在一些需要研究解决的技术,如多关键词下如何提高搜索准确率、如何利用中文元搜索引擎以提高搜索召回率、中文元搜索引擎下如何实现快速同步查询功能等问题,这就涉及如何研究和实现基于元搜索的中文引擎系统。本论文以提高搜索引擎准确率为主要目标,研究和实现了中文元搜索引擎系统,主要创新点:(1)设计了元搜索引擎的总体框架,提出了查询代理、搜索代理、运算代理三大功能模块,并阐述各代理的功能流程。(2)对目前10大中文搜索引擎进行搜索召回率、搜索时间和信息重复度比较,最终以Google和Baidu作为我们中文元搜索引擎的基本数据源,它们的召回率达到88.8%,为提高元搜索引擎准确率的做好准备。(3)在基于网页摘要分析的信息检索方面,提出了比例分析法和比值分析法来计算网页相关度。其中,比例分析法只需要分析网页标题,其最大平均准确率为76.56%,但出现很多网页相关度相同的现象;而比值分析法既考虑网页标题和又考虑网页摘要,其最大平均准确率为72.74%,但能较好区分各网页,为我们所采纳的计算方法。实验结果表明,比值分析法能够提高元搜索引擎的搜索性能,其平均搜索准确率比Google提高3.16%,比Baidu提高6.21%;而且,元搜索引擎的搜索时间与Google、Baidu在同一数量级上,能够保证同步搜索,既节省大量的硬盘存储空间,又保证信息来源的准确性。基于网页摘要分析的元搜索引擎新算法研究对于实现高准确率、高响应速度的搜索引擎具有重要参考价值。(4)在基于网页内容分析的多关键词信息检索方面,提出了核心关键词和分级权重的算法,并提出改进相关度计算方法。我们实验表明,元搜索引擎的最大平均准确率为82.00%,比Google提高12.37%,比Baidu提高18.05%,搜索性能得到很大的改善。(5)在元搜索引擎系统的设计实现方面,提出了数据库系统、软件系统、人机界面的设计方案,实现了基于网页内容分析的多关键词信息检索、<WP=3>基于网页摘要分析的单关键词信息检索,以及元搜索引擎与基本搜索引擎的搜索准确率和搜索时间比较三大功能。