基于页面时间相关度算法的信息检索研究

来源 :硅谷 | 被引量 : 0次 | 上传用户:zap2050zap
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要: 检索的目标是全面而准确的信息,用户关心的是在海量数据中快速地查到合适的信息。为了使用户更快地得到满意的结果,本文提出了在传统相关度算法的基础上增加页面时间因素思想的页面时间相关度算法,使得检索结果在查准率方面有了较大的提高。
  关键词: 相关性;页面时间相关度算法
  1 引言
  当前,我们在检索的时候往往不能更快地找到合适的数据。根据iProspect 的调查报告, 90%的用户只点击搜索结果页的前3页里的结果,多数网民表达了对搜索引擎结果中冗余信息多的不满。这说明:用户对搜索引擎的要求越来越高,他们希望花在寻找结果上的时间越来越少。因此,排序查找到的结果比搜索本身更为重要,研究搜索引擎的排序算法的改进,逐渐成为热点问题,越来越多的人意识到排序质量不令人满意的原因:不是网页提供给的信息太少,而是可用的信息太少,或所用信息不恰当[1]。
  如何解决非应答或无应答网页的问题,就是排序算法所应关注的重要问题。排序所查找到结果的相关度算法就是希望能够帮助用户更快捷准确的找到更符合目标的网页,以达到更好的查准率。本文提出了通过在传统网页相关度算法的基础上增加页面时间因素的思想,解决了无应答和非应答页面的问题,经过实验提高了查准率。
  2 传统排序算法的局限性
  2.1 传统网页的相关性排序原则
  传统的信息检索大多是基于全文检索的,其相关性都是基于词频统计的。即用户输入检索词句时,搜索引擎就会去找那些检索词所在的网页[2]。这样的排序算法的有很大的局限性表现为:首先,检索词的匹配不一定就是查找到准确文档的保证。其次,每个用户人都可以随心所欲地在网上发表各种内容,词频相同的两个网页,质量可能相差很远[2]。
  2.2 基于提问式的非应答或无应答式网页
  所谓基于提问式的非应答或无应答网页,就是针对某些问题用户在某些论坛或者网站上输入问题,但是没有合适的答案或没有回答的情况。而我们在检索时,也常常发生这样的情状况:因为输入的查询词句和网页中提问的问题的匹配,这些提问应答式网页的排序就比较靠前,但是,很多这样的网页都是非应答或无应答网页。
  2.3 用户反馈的问题
  在资源选择模块中加入日志信息、反馈机制, 充分利用用户反馈信息能够提高信息检索性[3]。本文提出了一种基于页面时间的相关度排序算法,解决了基于提问式的非应答或无应答网页的问题,弥补了用户反馈的问题。通过分析和实验可以看出此种方法不仅具有实用性和可行性,也使得排序结果具有更加优良的排序质量。同时,这种算法是在按照传统排序算法上增加页面时间的思想而提出的,可以方便地被移植。
  3 页面时间算法
  3.1 算法的思想
  页面时间算法的主要思想就是:有用的网页会比无用的网页的生存期长。
  先对待计算数据给出如下定义:
  定义1 对于一个用户检索时,确定搜索引擎抓取到的所有网页集合S,对于S中的任何一个网页用Ri表示。
  定义2 用户需要检索的目标网页集合G,G中网页的个数用小写字母N表示,如果没有用户特别指定,默认N值为10,这这是因为一般一个检索页面检索到的网页为10个,而根据调查显示,越来越多的用户只点击搜索结果页的第1页里的结果。G是S的子集。
  定义3 用户打开网页的个数,用小写字母n表示,nN。
  定义4 当用户打开一个页面时,记录两个时间:打开页面的时间,用tstart表示;关闭页面的时间,用tend表示。
  定义5 网页从打开到关闭所花费的时间称为页面的生存期,用带下标的小写字母t表示,ti表示第i个页面的生存期。
  算法的主要实现步骤为:
  步骤1 用户输入关键词句检索时,确定检索到的所有网页集合S和用户想要检索的网页集合G。即确定G的个数N,如果用户没有特殊说明,N的值默认为10。
  步骤2 对于打开的n个网页,nN for(0  对G中的每一个网页Ri通过每个页面的打开时间tstart和关闭时间tend按照公式(1)计算页面的生存期。
  步骤3 对于每一个网页Ri,i[1,n],查看页面的生存期ti,对n个检索到的结果按照ti由大到小进行排序。在同样的查询重要度下,ti值大的重要度要比ti值小的重要度大。这样,有用的网页就会更快的被用户查询到,无应答或者非应答网页的问题也就解决了。
  3.2 对算法的理论分析
  一是可行性和可移植性。我们打开一个网页的时候经常会有登录时间这样的信息“您上次登陆的时间是:”,就是说我们可以获得时间打开和关闭的信息,也就是说这个想法是可行的。而且这也就是说我们可以从网页上直接获取时间信息加以利用,而不用为网页增加更多的元素,这样就更有利于广泛地使用和被移植。
  二是用户透明性。知道网页打开和关闭的时间再算出网页利用时间不必用户完成,这很人性化,它对用户是透明的,不需要用户主动反馈信息而实际增加了用户反馈功能,更好地实现了查准率的目标。
  三是实用性。这种方法理论上可以去除无效的页面,比如说没有答复或没有合适答复的网页,我们在正常情况下发现这种情况就会立即关闭该网页,而对有价值的网页才会仔细研究内容,对用户有用的网页也会更快得被用户查询到。
  4 结束语
  相关度算法是查准率的保证,传统相关度算法无法解决无效的提问应答式页面的问题,用户反馈也不能解决这一问题。本文提出的页面时间算法对于查询时常出现的无应答和非应答页面有很好的效果,通过实验和分析都表明此种算法具有很好的实用性,有效地提高了网页的查准率,使得用户更快地得到
  满意的结果。
  参考文献:
  [1]田甜、倪林,基于PageRank 算法的权威值不均衡分配问题[J].计算机工程, 2007, 33(18):53-55.
  [2]过仕明,PageRank 技术分析及网页重要性的综合评价模型[J]. 图书馆论坛,2006, 26(1):79-81.
  [3]许静芳、李 星,可扩展的分布式信息检索的设计与实现 [J]. 清华大学学报(自然科学版),2005 ,45 (S1):1844
其他文献
从古至今,住房问题一直都是重要的发展问题,也是最受关注的民生问题之一。本文先对天津市中低收入家庭住房保障制度进行了概述;发现其存在进入、退出机制不完善,投资力度不够,设计不够科学等问题,然后着重分析了滨海新区的发展。最后提出几点建议,希望天津市的住房保障制度可以得到改善。  住房保障制度 中低收入 天津市  天津市中低收入家庭的住房情况不容乐观,政府从2008年就相继推出《天津市廉租住房管理办法》
期刊
本文介绍了以RCM2250嵌入式模块为核心的控制模块,以及嵌入式开发语言DynamicC,该系统支持WebServer、FTPServer、SMTP及POP3等,能在浏览器上通过程序接口CGI对嵌入式设备进
一、实施一体化教学的意义职业教育的宗旨是培养具有基本专业理论知识和熟练操作技能的,适应生产、管理、服务第一线的应用性、技能型人才。但我们义马煤技校的传统教学模式
介绍了西林钢铁集团阿城钢铁厂80t转炉控制系统。讨论了ControlLogix集成架构在控制系统中的应用及特点。对转炉控制系统硬件和软件组成进行了分析,对主要传动设备进行了介绍
腐败不仅是会党和人民的利益造成严重的危害,同时也是对我国社会主义现代化事业造成重大阻碍,因此为了保障我国社会主义现代化事业健康长远发展,预防和严惩腐败是重要的途径.
期刊
摘 要: 介绍了WebGIS当前重要的几种技术应用方法,为WebGIS开发提供了思路。  关键词: WebGIS; SVG;GeoVRML; Web Service  中图分类号:TP3 文献标识码:A 文章编号:1671-7597(2013)0110196-01  地理信息系统与计算机互联网结合产生了WebGIS,它使得人们可以通过互联网来浏览、查询相关的地理信息,促使GIS走向了大众化。目前W
农业,承载着六亿中国农民的产业,已不再是单纯的男耕女织、秋收冬藏.而中国农民现阶段面临的将是如何在世界八分之一的耕地上养活世界五分之一的人口,如何在最短的时间内完成
期刊
本文介绍了在泵站基础不均匀沉陷显著时,避免立式机组安装重大返工,保证泵站效益及时发挥的创新安装方法,在生产实践中,已被较广泛的应用.但是采用新安装方法尚未妥善解决盘
本文基于确保嵌入式应用系统可靠运行的观点,利用×25043/45 E2PROM芯片的上电复位、电源监视复位、WDT复位及E2PROM非易失可保护性能,实现了系统故障修复技术。文中阐述了系统
中国共产党是共产党执政国家政党中影响最大的一个党派,执政60年来带领中国人民取得了举世瞩目的伟大成就。而印共(马)则是在非共产党执政国家中影响最大的共产党,在印度地方