元搜索引擎中检索结果优化策略的研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:wenyueting
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着网络的大量普及以及各种技术的快速发展,互联网上的信息呈爆炸性增长。人们要在网上快速查找自己想要的资料越来越困难,搜索引擎的出现为解决这一难题提供了方便。   然而,独立搜索引擎所覆盖的信息面相对来说,还不够宽。随着网络的迅猛发展,独立搜索引擎越来越显得力不从心。为了改变这一状态,元搜索引擎伴随着人们的需要就产生了。元搜索引擎所覆盖的信息范围相对而言比较广,在一定范围内能提高了检索结果的查全率以及准确性。它吸引着人们的浓厚研究兴趣,成为信息检索研究的热点之一。而由于元搜索引擎所选取的各成员搜索引擎在检索方式、排序算法等方面采用不同的方法,这就造成了在对返回结果进行相关处理时比较困难,所以它也是信息检索研究的难点之一。本文在深入研究元搜索引擎的相关技术基础上,提出了基于用户偏好的摘要/位置的结果排序算法和基于网页正文主题和摘要的网页去重算法。   首先,简述了元搜索引擎的运作原理和分类,研究了元搜索引擎的核心技术,并阐述了它的不足以及未来发展趋势。   其次,在深入研究元搜索引擎返回结果常用排序算法的基础上,提出了一种改进的基于用户偏好的摘要/位置排序算法。该算法不仅能体现出查询词与主题、摘要的相关度,而且能体现出用户对成员搜索引擎的偏好。实验表明,该算法具有明显的优势,更能满足用户的个性需求。   再次,利用模糊匹配的思想,引入分词,提出一种基于网页正文主题和摘要的网页去重算法。该算法首先对各成员搜索引擎返回来的网页标题进行有关处理,提取出网页的主题信息,然后对主题、摘要进行分词,再分别计算主题、摘要的相似度。二者结合能更好地体现出文章摘要的内容,实现网页去重。实验表明,在网页去重方面,比起基于传统特征码的去重算法,该算法具有明显的优势,更接近人工统计结果。   最后,设计出整个元搜索引擎系统,验证算法的有效性。
其他文献
伴随着计算机技术以及互联网技术的迅速发展,计算机应用技术在我国农业发展中的作用越来越重要。长期以来,农药作为农业生产中使用最普遍和最广泛的病虫害防治手段,然而,农药
随着互联网与多媒体技术的飞速发展,视频信息给人们的生活带来了巨大的便利。然而,面对如此庞大的视频数据量,如何有效的组织、存储、检索与浏览视频已成为视频研究领域中的
多重数字图像水印技术使用相同或者不同的密钥,在同一幅图片中多次嵌入水印,其目的是保证版权认证信息的安全。多重数字图像水印较之普通水印更具有强壮性和安全性能,在对数字产
学位
XML已成为网络数据表示和信息交换的标准。随着XML在各个领域的广泛应用,其安全性也更多地受到人们的关注。   本文针对XML安全问题,分析了RSA密钥机制和XML自身的特点,将XML
学位
支持向量机因其坚实的理论基础与优越的学习性能已被广泛运用于大规模数据的学习中,但支持向量机优越性是建立在小样本的基础之上,在大规模样本的学习问题上它却并未表现出优势
互联网时代的到来,标志着我们生活方式的巨大改变。人们通过网络可以获取各种想要的信息。特别是伴随着Web技术由Web1.0向Web2.0逐渐过渡,金融领域信息开始在网络上进行集散,
数据仓库和OLAP联机分析系统提供了一些方法和工具来分析企业信息系统中的数据事务。但是,只有其中20%的信息是可以被OLAP分析系统分析。对于其他的80%的数据,大部分都是文件
粒子群优化算法作为一种新的智能优化算法,由于其收敛速度快、参数设置少,近年来受到众多学者的研究和重视。它常被用于解决大量非线性、不光滑和多峰值的复杂问题优化,现己广泛
“地震成像”领域的巨大进展是推动石油勘探工业的快速发展的主要动力。地震成像系统实现地震勘探结果的成像,便于地震数据解释人员、地质工程师等对地下地质构造、分层信息
人体运动中包含大量的情感信息,是情感识别领域新的研究方向。但是目前基于人体运动进行情感识别的工作基础薄弱,大多是人工判别或者提取一些基本物理运动信息作为特征量进行机