一个借助查询历史改善结果排序的文件检索系统的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户：koalaz

【摘要】

：

本文针对用户对文件检索的需求，在文件检索技术领域有如下贡献。 1.首先提出了一个文件检索的模型，明确了在文件检索模型中检索对象、查询串、查询与检索对象的匹配方式三部

【作者】

：

谢欣

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2005年期

【关键词】

：

文件检索系统网络环境历史查询检索模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文针对用户对文件检索的需求，在文件检索技术领域有如下贡献。 1.首先提出了一个文件检索的模型，明确了在文件检索模型中检索对象、查询串、查询与检索对象的匹配方式三部分的含义。检索对象，即文件条目表示为六元组[name，ext，size，date，site，path]的形式，查询串表示为以空格分隔的字符串的集合，查询与检索对象的匹配则表示为查询串与文件条目的匹配串之间的匹配。 2.提出了对文件检索系统进行评测的指标。将查询结果视作集合时以查全率、查准率为评测指标。将查询结果视作有序序列时，分析了查询结果的相关性、连接下载速度以及结果的可用性等因素对排序的影响，并提出了对排序进行评测的指标——排序指数。提出对于两个排序策略进行比较时，应当在结果的每个页面内部应用排序策略，而不是在全体结果集合上应用排序策略，并比较平均用户选取条目的页内排名。 3.通过统计、分析用户对文件搜索引擎的检索和对检索结果中下载地址条目的选取，发现了用户行为习惯中的两个重要规律：一、少数查询串占据了全部查询请求的大多数，具体而言，前20％的热门查询串占据了全部查询请求的80％；二、对全体用户而言，假设有n次不同的查询请求使用了同一个查询串，并且它们代表k类不同的查询意图。那么通常k≤3，因而在n较大的情况下，则n/k的值较大，即大量的来自不同用户的请求代表了相同的查询意图。 4.设计并实现了一个真实的系统。该系统借助查询历史改善结果的排序。与一般基于用户历史信息的检索系统不同的是，本系统借助的历史信息不局限于当前用户的历史信息，还包含提交了相同查询串的其他用户的查询信息。或者说，即使当前用户是第一次使用本系统，本系统也能利用其他用户的历史记录来改进结果的排序和筛选。最后还验证了其实际的效果。应用本方法后，平均用户选取条目的页内排名从原来的13.70名前进到了8.93名。试验结果表明：所做的分析是正确的。

其他文献

基于最大熵的全局寻优的汉语句法分析模型和算法研究

该文在统计方法下,围绕汉语句法分析面临的这两个主要问题进行深入研究.具体地讲,该文研究从如下四个方面展开:1、对比分析了四种主流句法分析模型在汉语分析中的性能,从理论

学位

汉语句法分析最大熵原理全局寻优RETE网

嵌入式系统与CAN总线在汽车网络中的应用研究

随着汽车交换数据的任务越来越繁重,布线越来越复杂,CAN总线以其优越性成为当今汽车网络领域发展的热点之一,CAN总线网络技术的出现标志着汽车网络技术领域一个新时代的开始,

学位

汽车网络嵌入式系统CAN总线通信协议控制策略

基于NDIS协议驱动程序的非法外联监控系统设计与实现

随着计算机网络的迅猛发展,众多的企业、组织、政府部门与机构纷纷组建和发展自己的内部网络。为了保障内部网络安全,现有的做法是要么采用物理隔离的方式使内网与外网隔离,

学位

网络安全非法外联监控系统软件设计C/S模式NDIS协议驱动程序

基于模糊神经网络的入侵检测机制研究

基于特征匹配的入侵检测系统(IntrusionDetectionSystem-IDS)由于检测效率高，误报率低的特性而被大多数的商业IDS系统所采用。但是，这种系统存在的主要问题是人工生成的专家知

学位

信息安全网络安全入侵检测模糊神经网络

基于蜜罐的自适应主动入侵防护系统的设计与实现

随着计算机网络资源共享的进一步加强，信息安全问题也日益突出：系统漏洞更快地被发现、攻击过程自动化、攻击工具快速更新与不断复杂化、网络威胁传播速度越来越快，由此使得各国

学位

入侵检测计算机网络信息安全

基于新一代GPS标准的产品要素几何特征编码及其应用研究

新一代GPS(Geometrical Product Specification and Verification)标准体系是适应经济全球化要求的,面向数字化设计、制造与检验的标准与计量信息系统。在国际标准中,几何产

学位

全球定位系统要素几何特征编码方法数据传递遗传算法

基于部分图像加密的数字水印技术研究

随着网络技术和多媒体技术的迅速发展,信息技术在给我们带来方便的同时,也使数字作品的版权保护问题变得越来越突出,数字水印技术被认为是数字作品版权保护的一个重要手段。

学位

信息隐藏数字水印图像加密离散小波变换

变换域中基于加密技术的数字图像公开水印算法研究

数字水印技术将可以作为标记、标识的信息做为水印信息嵌入到数字作品中，以达到确认内容创建者、购买者或多媒体内容是否真实完整的目的。该技术是近年来信息安全的一种重要手

学位

信息隐藏数字水印信息安全数字图像

基于Web的文本挖掘技术研究

本文研究的重点是Web文本挖掘技术,文章以文本分类为切入点展开对文本挖掘技术的原理及应用的研究.首先,介绍了Web文本挖掘的理论知识和最新研究成果,以及因特网上的数据组织

学位

文本挖掘文本分类向量空间模型特征提取文本预处理

RTLinux系统实时性能评测及相关问题的研究

　本文对基于硬实时操作系统RTLinux的数控系统进行实时性能方面的评测及相关问题进行了研究。不仅为数控系统提供稳定、安全、可靠的运行环境，而且为实时应用的研究与开发

学位

实时系统实时性能评测调度抖动同步机制

一个借助查询历史改善结果排序的文件检索系统的设计与实现

与本文相关的学术论文