基于主题的元搜索引擎关键技术研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:zsjbusiniao1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着互联网的飞速发展,网络中的信息量急剧增加,用户如何能够在最短时间内获得最需要的信息成为目前信息检索领域的首要问题。现有的搜索引擎都在一定程度上存在搜索覆盖率不足、搜索效率低下及重复信息较多等问题,为了解决这些问题,元搜索引擎应运而生。元搜索引擎的工作原理是集成多个独立搜索引擎,再通过一定的调度策略和结果集成算法来得到搜索结果集合。这种方法既可以扩大搜索的覆盖范围,又可以通过用户的喜好来选择符合用户需求的结果集合。本文首先介绍了目前搜索引擎发展的局限性,分析研究元搜索引擎的目的及意义,阐述了元搜索引擎的基本概念与工作原理,分析其国内外研究现状及各种研究方法的优缺点。为了解决目前元搜索引擎发展中面临的问题,本文提出一种基于主题的元搜索引擎模型,与传统元搜索引擎单纯的处理机制相比,这里加入了伪爬虫调度机制,并引入了用户输入分析算法,在提高元搜索引擎查准率的基础上降低了搜索的响应时间。在成员搜索引擎调度策略方面,从深入分析用户查询意图入手,结合成员搜索引擎数据库与主题类别的相似度及用户对成员搜索引擎的关注度,提出一种基于伪爬虫的成员搜索引擎调度策略。在结果集成方面,结果去重算法采用基于地址URL、标题和摘要的综合分析方式对搜索结果进行去重。在结果排序方面,给出一种结合用户对成员搜索引擎的关注度、搜索结果在成员搜索引擎中的位置得分和搜索结果与主题的相关度的排序算法,对返回结果进行排序。最后对本文中提出的算法进行实验,分析实验结果,同时,根据用户对搜索引擎的需求发展趋势,确定了下一阶段的研究方向。
其他文献
无线传感器网络(Wireless Sensor Network,WSN)是由大量部署在监测区域内的具有数据采集、信息处理、无线通信等功能的微型传感器节点形成的自组织网络系统,是一种全新的信息获取
视景仿真是虚拟现实技术在实际应中的热门研究课题之一,其中包括对火焰、云雾、雨雪、沙尘、浪花等动态自然景物和现象的模拟与绘制,在气象预报、航空航天、装潢广告等领域有
人脸识别技术因其具有重要的科学意义和实用价值,在近几年得到了研究者的高度重视,成为当前模式识别和人工智能领域的一个研究热点。人脸识别主要分为人脸检测、特征提取和模
随着计算机技术和网络技术的飞速发展,计算机网络在人类社会各领域发挥着越来越重要的作用。由于自身存在的漏洞,计算机网络在给人们的生产生活带来便利的同时,也给网络攻击
现在的Web(万维网)已经成为传统Web信息与语义网(Semantic Web)信息共存和交融的信息空间。近年来,这两种类型的信息都得到了爆炸式的增长。如何从这个海量的、异质的信息空间中快
在图像分析和处理中,人们往往只对图像中的某些部分感兴趣,这些部分通常称为目标或前景,一般对应于图像中具有特定性质的区域。图像分割就是将一幅图像划分成若干个互不相交
随着互联网的高速发展,通用爬虫在浩瀚如海的网络世界里,对高效提取有效网页信息显得越来越力不从心。而主题爬虫是解决通用搜索引擎可扩展性限制的有效方法。它可以指导抓取
网格计算是近年来的研究热点之一。它可将高速互联网、电脑、大型资料库、传感器、远端设备等融为一体,实现它们的全面共享与协同工作。网格任务调度是网格计算研究的核心内
微小型四轴无人机因其机动灵活、机械结构简单、性价比较高等特点,逐渐成为无人机领域中的研究热点。在对微小型四轴无人机进行设计时,一个稳定的嵌入式飞行控制系统是实现其
随着现代社会的快速发展,异步电机被广泛的应用于生产生活的各个领域。如低端的工农业生产,高端的军事设备及航空航天仪器方面。因此确保电机安全和稳定的运行变得越来越重要。