一种改进的综合Borda元搜索引擎结果排序算法

来源 :计算机光盘软件与应用 | 被引量 : 0次 | 上传用户:qinghuawuqiong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:在传统的元搜索引擎中采用了Borda排序算法,即根据成员引擎检索结果的相关位置赋予一定分值,求和后按总分递减排序。这对各个成员引擎检索结果重叠度较高的检索排序非常有效,但对独立的搜索结果效果不好,速度较慢。另有根据检索字符串和检索结果的标题、摘要等相似度进行排序,这种排序快速,实现简单,但返回的信息简单,可能导致摘要信息多的排在前面,而不是内容相关的高的排在前面。针对这两种算法的不足,提出了一种改进的综合Borda排序算法,计算检索字符串和结果标题、摘要的相似度,再把相似度作为相关分值进行排序,它综合了两种算法。实验结果表明,他的查准率优于传统的Borda算法。
  关键词:元搜索;摘要排序;相似度计算;Borda算法
  中图分类号:TP391.3
  元搜索引擎是包含了多个搜索引擎的特殊搜索引擎。用户输入查询请求后,元搜索引擎向各个成员搜索引擎并行发送检索请求,检索完成后,检索结果通过去重排序处理后返回给用户。将多个搜索引擎的结果放到一起,这样可以扩大检索范围,提高查全率。但是要将这么海量的数据融合到一起,这就需要一个较好的排序算法,才能够把用户最想要的结果展示在前面。因此,排序算法是影响元搜索引擎性能的关键技术之一。
  1 传统Borda排序算法
  Borda排序算法首先对成员搜索引擎的搜索结果根据位置关系赋予一定的相关分值,检索结果位置越靠前,它的相关分值越大,反之,它的相关分值越小。实际过程如下描述如下:
  2 对Borda排序算法的改进
  传统Borda排序算法的关键是根据检索结果在各个搜索引擎的相关分值的总和进行降序排列,对于多个搜索引擎检索到的结果都能排在前面。实验表明,只要查询结果重叠率较高,Borda排序算法的查准率就比较高。但对于独立的搜索结果排序处理不太好,特别是独立搜索结果较多的情况下,很多检索结果的相关分值都是一样的,Borda排序算法是采用随机排列的,这与实际用户期望结果有一定的偏差,导致排在前面却未必是用户最需要的结果信息。基于此,我们提出了一种改进的Borda排序算法,核心思想是引进检索字符串与检索结果的标题、摘要的相似度。并将相似度作为检索结果的相关分值。
  3 相似度的计算
  相似度是指检索字符串与检索结果之间的关联程度。相似度的计算方法有很多种,由于检索结果 主要是由网址,标题,摘要,内容组成。我们采用计算检索字符串和标题、摘要之间的相似度。最后根据相关分值的大小进行排序。
  我们采用的频率统计来计算相似度,先计算检索字符串p与结果标题ri之间的相似度,对于检索字符串中词条pj,有pj和ri的相似度
  5 结束语
  目前,搜索引擎的技术已经日趋成熟,在查全率和查准率都有很大的提高,但是元搜索引擎在这些方面更具优势。本文提出的改进算法提高了查全率和查准率。相信未来是结合多种算法的排序是元搜索引擎的未来的发展趋势。
  参考文献:
  [1]shifu Zheng,ting Liu,Bing Qin.Overview of Question-Answering.Journal of Chinese Information Processing.Vol 6,No.16,pp.46-52,June.2002.
  [2]Dell Zhang,Wee sun Lee.A Web-based Question Answering system[A].In:Proceedings of the sMA Annual symposium 2003[C],Nus,Singapore,Jan 2003.
  [3]lemal H.Abawajy and M.1.Hu,school of Information technology,Deakin university,Geelong,Victoria 3217 Australia——A New Internet Meta-search Engine and Implementation.
  [4]Hongmei Li,Zhenguo Ding,shuisheng Zhou,Lihua Zhou.simearch on simults Merging in Meta search Engine.Vo1.3I,No.s,pp:78-81,Oct 2008.
  [5]万保.元搜索引擎关键技术研究[D].西北工业大学,2007.
  [6]曹林,韩立新,吴胜利.元搜索引擎排序技术综述[J].计算机应用研究,2009(02).
  [7]郭海风,曹林.元搜索引擎中Borda算法的改进[J].计算机工程,2011(01).
  [8]董乐,谢红薇.元搜索引擎中排序融合算法的优化研究[J].计算机应用与软件,2012(10).
  [9]周小平,梁一平,邓左祥.元搜索引擎研究[C].2009年中国高校通信类院系学术研讨会论文集,2009.
  [10]王晓艳,刘春双,刘光华.经典搜索引擎排序算法的比较和分析[J].产业与科技论坛,2012(24).
  [11]杨春明,何天翔.元搜索引擎的结果去重及排序研究[J].软件,2012(06).
  [12]林欣,温传林,韩立新.一种元搜索主题偏好的排序算法[J].计算机技术与发展,2013(02).
  作者简介:李兵(1991-),男,湖南祁阳人,在校学生,软件工程专业,本科,主要研究方向:Web开发技术。
  作者单位:吉首大学 软件服务外包学院,湖南张家界 427000
  基金项目:大学生研究性学习和创新性实验计划项目(JSU-CX-2012-54)。
其他文献
【正】 姜可瑜认为殷墟文字是在短期内形成于少数人之手。其论据有三:1.殷墟甲骨文已是达到相当成熟阶段的文字字群,文字数量已近5000个,可识者已近1000个,词类和句法亦自有
摘要:在如今信息化社会的不断发展中,网络逐渐在企业经营中发挥巨大的作用。电子商务的普及也给我国的企业发展带来新的活力。现今的电子商务多采用学习机制,本文先介绍了基于多代理系统的学习机制相关内容,然后就学习机制的概念、特性、应用特点、运营策略进行了介绍和分析。  关键词:电子商务;学习机制;应用  中图分类号:TP391.4 文献标识码:A 文章编号:1007-9599 (2013) 03-0000
从阀门标准的分类及阀门标准的主要技术方面,对核电站和普通电站阀门标准进行了比较研究,通过借鉴国外现有的一些普通电站阀门标准,将核电站的阀门标准融入到了普通电站的阀门标
社会对中专生语文程度的要求是要具备一定的从事工作所需的“听说读写”能力和与之相适应的“分析”、“综合”能力。如何培养这些能力,文章在对中小学语文教学重点分析的基础
杭州市拱墅区招商局要将税收绩效数据和固定资产实际数据录入杭州市招商统计系统中,在数据录入之前要先对数据进行整理、计算、统计,由于数据量大,Excel中统计方法不够强大。
将旋转变换理论应用于平面度误差评定中,通过实例证明了其可行性。
对126例脑血栓形成患者用精制蝮蛇抗栓酶(Svate-3)治疗,检测用药前后头发中Cr、Mn、Se、Mo、Co元素含量。发现脑血检患者用Svate-3治疗后发Cr、Mn、Se含量明显高于用药前,它们之间都有显著性差异,P<0.01;Mo、Co元素的含量在用药
【正】 社会主义高等院校是从事精神文明建设的教育实体。它为社会主义事业所培养的高级人才,是德、智、体、美全面发展的新人。他们既是社会主义物质文明建设的栋梁之材,又
本文就地下水对地下结构的浮托力作用进行研究,对抗浮设防水位的确定、浮托力的计算、抗浮技术措施的选择进行分析与探讨,并提出一定的观点和建议。
本文阐述了综合布线系统的概念、构成和设计要领;并列举了一个工程实例.