论文部分内容阅读
摘 要:在传统的元搜索引擎中采用了Borda排序算法,即根据成员引擎检索结果的相关位置赋予一定分值,求和后按总分递减排序。这对各个成员引擎检索结果重叠度较高的检索排序非常有效,但对独立的搜索结果效果不好,速度较慢。另有根据检索字符串和检索结果的标题、摘要等相似度进行排序,这种排序快速,实现简单,但返回的信息简单,可能导致摘要信息多的排在前面,而不是内容相关的高的排在前面。针对这两种算法的不足,提出了一种改进的综合Borda排序算法,计算检索字符串和结果标题、摘要的相似度,再把相似度作为相关分值进行排序,它综合了两种算法。实验结果表明,他的查准率优于传统的Borda算法。
关键词:元搜索;摘要排序;相似度计算;Borda算法
中图分类号:TP391.3
元搜索引擎是包含了多个搜索引擎的特殊搜索引擎。用户输入查询请求后,元搜索引擎向各个成员搜索引擎并行发送检索请求,检索完成后,检索结果通过去重排序处理后返回给用户。将多个搜索引擎的结果放到一起,这样可以扩大检索范围,提高查全率。但是要将这么海量的数据融合到一起,这就需要一个较好的排序算法,才能够把用户最想要的结果展示在前面。因此,排序算法是影响元搜索引擎性能的关键技术之一。
1 传统Borda排序算法
Borda排序算法首先对成员搜索引擎的搜索结果根据位置关系赋予一定的相关分值,检索结果位置越靠前,它的相关分值越大,反之,它的相关分值越小。实际过程如下描述如下:
2 对Borda排序算法的改进
传统Borda排序算法的关键是根据检索结果在各个搜索引擎的相关分值的总和进行降序排列,对于多个搜索引擎检索到的结果都能排在前面。实验表明,只要查询结果重叠率较高,Borda排序算法的查准率就比较高。但对于独立的搜索结果排序处理不太好,特别是独立搜索结果较多的情况下,很多检索结果的相关分值都是一样的,Borda排序算法是采用随机排列的,这与实际用户期望结果有一定的偏差,导致排在前面却未必是用户最需要的结果信息。基于此,我们提出了一种改进的Borda排序算法,核心思想是引进检索字符串与检索结果的标题、摘要的相似度。并将相似度作为检索结果的相关分值。
3 相似度的计算
相似度是指检索字符串与检索结果之间的关联程度。相似度的计算方法有很多种,由于检索结果 主要是由网址,标题,摘要,内容组成。我们采用计算检索字符串和标题、摘要之间的相似度。最后根据相关分值的大小进行排序。
我们采用的频率统计来计算相似度,先计算检索字符串p与结果标题ri之间的相似度,对于检索字符串中词条pj,有pj和ri的相似度
5 结束语
目前,搜索引擎的技术已经日趋成熟,在查全率和查准率都有很大的提高,但是元搜索引擎在这些方面更具优势。本文提出的改进算法提高了查全率和查准率。相信未来是结合多种算法的排序是元搜索引擎的未来的发展趋势。
参考文献:
[1]shifu Zheng,ting Liu,Bing Qin.Overview of Question-Answering.Journal of Chinese Information Processing.Vol 6,No.16,pp.46-52,June.2002.
[2]Dell Zhang,Wee sun Lee.A Web-based Question Answering system[A].In:Proceedings of the sMA Annual symposium 2003[C],Nus,Singapore,Jan 2003.
[3]lemal H.Abawajy and M.1.Hu,school of Information technology,Deakin university,Geelong,Victoria 3217 Australia——A New Internet Meta-search Engine and Implementation.
[4]Hongmei Li,Zhenguo Ding,shuisheng Zhou,Lihua Zhou.simearch on simults Merging in Meta search Engine.Vo1.3I,No.s,pp:78-81,Oct 2008.
[5]万保.元搜索引擎关键技术研究[D].西北工业大学,2007.
[6]曹林,韩立新,吴胜利.元搜索引擎排序技术综述[J].计算机应用研究,2009(02).
[7]郭海风,曹林.元搜索引擎中Borda算法的改进[J].计算机工程,2011(01).
[8]董乐,谢红薇.元搜索引擎中排序融合算法的优化研究[J].计算机应用与软件,2012(10).
[9]周小平,梁一平,邓左祥.元搜索引擎研究[C].2009年中国高校通信类院系学术研讨会论文集,2009.
[10]王晓艳,刘春双,刘光华.经典搜索引擎排序算法的比较和分析[J].产业与科技论坛,2012(24).
[11]杨春明,何天翔.元搜索引擎的结果去重及排序研究[J].软件,2012(06).
[12]林欣,温传林,韩立新.一种元搜索主题偏好的排序算法[J].计算机技术与发展,2013(02).
作者简介:李兵(1991-),男,湖南祁阳人,在校学生,软件工程专业,本科,主要研究方向:Web开发技术。
作者单位:吉首大学 软件服务外包学院,湖南张家界 427000
基金项目:大学生研究性学习和创新性实验计划项目(JSU-CX-2012-54)。
关键词:元搜索;摘要排序;相似度计算;Borda算法
中图分类号:TP391.3
元搜索引擎是包含了多个搜索引擎的特殊搜索引擎。用户输入查询请求后,元搜索引擎向各个成员搜索引擎并行发送检索请求,检索完成后,检索结果通过去重排序处理后返回给用户。将多个搜索引擎的结果放到一起,这样可以扩大检索范围,提高查全率。但是要将这么海量的数据融合到一起,这就需要一个较好的排序算法,才能够把用户最想要的结果展示在前面。因此,排序算法是影响元搜索引擎性能的关键技术之一。
1 传统Borda排序算法
Borda排序算法首先对成员搜索引擎的搜索结果根据位置关系赋予一定的相关分值,检索结果位置越靠前,它的相关分值越大,反之,它的相关分值越小。实际过程如下描述如下:
2 对Borda排序算法的改进
传统Borda排序算法的关键是根据检索结果在各个搜索引擎的相关分值的总和进行降序排列,对于多个搜索引擎检索到的结果都能排在前面。实验表明,只要查询结果重叠率较高,Borda排序算法的查准率就比较高。但对于独立的搜索结果排序处理不太好,特别是独立搜索结果较多的情况下,很多检索结果的相关分值都是一样的,Borda排序算法是采用随机排列的,这与实际用户期望结果有一定的偏差,导致排在前面却未必是用户最需要的结果信息。基于此,我们提出了一种改进的Borda排序算法,核心思想是引进检索字符串与检索结果的标题、摘要的相似度。并将相似度作为检索结果的相关分值。
3 相似度的计算
相似度是指检索字符串与检索结果之间的关联程度。相似度的计算方法有很多种,由于检索结果 主要是由网址,标题,摘要,内容组成。我们采用计算检索字符串和标题、摘要之间的相似度。最后根据相关分值的大小进行排序。
我们采用的频率统计来计算相似度,先计算检索字符串p与结果标题ri之间的相似度,对于检索字符串中词条pj,有pj和ri的相似度
5 结束语
目前,搜索引擎的技术已经日趋成熟,在查全率和查准率都有很大的提高,但是元搜索引擎在这些方面更具优势。本文提出的改进算法提高了查全率和查准率。相信未来是结合多种算法的排序是元搜索引擎的未来的发展趋势。
参考文献:
[1]shifu Zheng,ting Liu,Bing Qin.Overview of Question-Answering.Journal of Chinese Information Processing.Vol 6,No.16,pp.46-52,June.2002.
[2]Dell Zhang,Wee sun Lee.A Web-based Question Answering system[A].In:Proceedings of the sMA Annual symposium 2003[C],Nus,Singapore,Jan 2003.
[3]lemal H.Abawajy and M.1.Hu,school of Information technology,Deakin university,Geelong,Victoria 3217 Australia——A New Internet Meta-search Engine and Implementation.
[4]Hongmei Li,Zhenguo Ding,shuisheng Zhou,Lihua Zhou.simearch on simults Merging in Meta search Engine.Vo1.3I,No.s,pp:78-81,Oct 2008.
[5]万保.元搜索引擎关键技术研究[D].西北工业大学,2007.
[6]曹林,韩立新,吴胜利.元搜索引擎排序技术综述[J].计算机应用研究,2009(02).
[7]郭海风,曹林.元搜索引擎中Borda算法的改进[J].计算机工程,2011(01).
[8]董乐,谢红薇.元搜索引擎中排序融合算法的优化研究[J].计算机应用与软件,2012(10).
[9]周小平,梁一平,邓左祥.元搜索引擎研究[C].2009年中国高校通信类院系学术研讨会论文集,2009.
[10]王晓艳,刘春双,刘光华.经典搜索引擎排序算法的比较和分析[J].产业与科技论坛,2012(24).
[11]杨春明,何天翔.元搜索引擎的结果去重及排序研究[J].软件,2012(06).
[12]林欣,温传林,韩立新.一种元搜索主题偏好的排序算法[J].计算机技术与发展,2013(02).
作者简介:李兵(1991-),男,湖南祁阳人,在校学生,软件工程专业,本科,主要研究方向:Web开发技术。
作者单位:吉首大学 软件服务外包学院,湖南张家界 427000
基金项目:大学生研究性学习和创新性实验计划项目(JSU-CX-2012-54)。