一个借助查询历史改善结果排序的文件检索系统的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:koalaz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文针对用户对文件检索的需求,在文件检索技术领域有如下贡献。 1.首先提出了一个文件检索的模型,明确了在文件检索模型中检索对象、查询串、查询与检索对象的匹配方式三部分的含义。检索对象,即文件条目表示为六元组[name,ext,size,date,site,path]的形式,查询串表示为以空格分隔的字符串的集合,查询与检索对象的匹配则表示为查询串与文件条目的匹配串之间的匹配。 2.提出了对文件检索系统进行评测的指标。将查询结果视作集合时以查全率、查准率为评测指标。将查询结果视作有序序列时,分析了查询结果的相关性、连接下载速度以及结果的可用性等因素对排序的影响,并提出了对排序进行评测的指标——排序指数。提出对于两个排序策略进行比较时,应当在结果的每个页面内部应用排序策略,而不是在全体结果集合上应用排序策略,并比较平均用户选取条目的页内排名。 3.通过统计、分析用户对文件搜索引擎的检索和对检索结果中下载地址条目的选取,发现了用户行为习惯中的两个重要规律:一、少数查询串占据了全部查询请求的大多数,具体而言,前20%的热门查询串占据了全部查询请求的80%;二、对全体用户而言,假设有n次不同的查询请求使用了同一个查询串,并且它们代表k类不同的查询意图。那么通常k≤3,因而在n较大的情况下,则n/k的值较大,即大量的来自不同用户的请求代表了相同的查询意图。 4.设计并实现了一个真实的系统。该系统借助查询历史改善结果的排序。与一般基于用户历史信息的检索系统不同的是,本系统借助的历史信息不局限于当前用户的历史信息,还包含提交了相同查询串的其他用户的查询信息。或者说,即使当前用户是第一次使用本系统,本系统也能利用其他用户的历史记录来改进结果的排序和筛选。最后还验证了其实际的效果。应用本方法后,平均用户选取条目的页内排名从原来的13.70名前进到了8.93名。试验结果表明:所做的分析是正确的。
其他文献
该文在统计方法下,围绕汉语句法分析面临的这两个主要问题进行深入研究.具体地讲,该文研究从如下四个方面展开:1、对比分析了四种主流句法分析模型在汉语分析中的性能,从理论
随着汽车交换数据的任务越来越繁重,布线越来越复杂,CAN总线以其优越性成为当今汽车网络领域发展的热点之一,CAN总线网络技术的出现标志着汽车网络技术领域一个新时代的开始,
随着计算机网络的迅猛发展,众多的企业、组织、政府部门与机构纷纷组建和发展自己的内部网络。为了保障内部网络安全,现有的做法是要么采用物理隔离的方式使内网与外网隔离,
基于特征匹配的入侵检测系统(IntrusionDetectionSystem-IDS)由于检测效率高,误报率低的特性而被大多数的商业IDS系统所采用。但是,这种系统存在的主要问题是人工生成的专家知
随着计算机网络资源共享的进一步加强,信息安全问题也日益突出:系统漏洞更快地被发现、攻击过程自动化、攻击工具快速更新与不断复杂化、网络威胁传播速度越来越快,由此使得各国
新一代GPS(Geometrical Product Specification and Verification)标准体系是适应经济全球化要求的,面向数字化设计、制造与检验的标准与计量信息系统。在国际标准中,几何产
随着网络技术和多媒体技术的迅速发展,信息技术在给我们带来方便的同时,也使数字作品的版权保护问题变得越来越突出,数字水印技术被认为是数字作品版权保护的一个重要手段。
数字水印技术将可以作为标记、标识的信息做为水印信息嵌入到数字作品中,以达到确认内容创建者、购买者或多媒体内容是否真实完整的目的。该技术是近年来信息安全的一种重要手
本文研究的重点是Web文本挖掘技术,文章以文本分类为切入点展开对文本挖掘技术的原理及应用的研究.首先,介绍了Web文本挖掘的理论知识和最新研究成果,以及因特网上的数据组织
  本文对基于硬实时操作系统RTLinux的数控系统进行实时性能方面的评测及相关问题进行了研究。不仅为数控系统提供稳定、安全、可靠的运行环境,而且为实时应用的研究与开发