用于非结构化数据相似搜索的索引技术研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:muagie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文面向实际应用,在当前非结构化数据相似搜索的索引技术基础上针对KNN查询和索引存储进行了性能和可靠性方面的优化。 在KNN查询方面,针对树型索引结构比较了RKV算法和HS算法,指出了其在实际应用中不同的适用场景:通过将可预计算的部分保存在索引结构中,降低了KNN查询中的距离计算代价。 在索引存储方面,针对非结构化数据的高维特性采用了将索引页所含的向量单独存储的方法,降低了因索引存储利用率不足所导致的空间浪费;在索引页的缓冲管理方面分析了传统替换策略的不足,并基于对索引页访问概率的分析给出了一个效果较好的替换策略TKL;在索引文件的完整性维护方面,基于对脏页间的相关性分析提出了以相关脏页超集为单位的脏页回写方式,降低了索引完整性被破坏的概率,并进一步给出了一个使索引文件具有完整性自恢复能力的方案。本文的工作已在方正智思知识管理系统中得到了应用,并取得了良好的效果。
其他文献
RSA密码系统是目前应用最为广泛的公开密钥密码系统。RSA密码系统中最核心的运算是模乘幂运算,即计算YEmodN。模乘幂运算由一系列模乘法运算实现,模乘法运算是模乘幂运算的基础
本文主要研究将计算机视觉应用于智能车辆的视觉导航系统的原理和关键算法以及实现过程。主要目的是为智能车辆提供横向控制和纵向控制所需的控制信息。在横向控制方面,主要包
随着短消息业务在GSM移动通信网络上的广泛开展,简单的点对点短消息已经不能满足用户对基于短消息的数据业务需求。迅猛增长的短消息增值业务已成为中国移动和中国联通两家运
本文以“全国大型科学仪器资源数据库及共享网络信息管理系统”项目为背景,从分析子功能模块“统计分析”的实现问题出发,提出了把多节点的统计分析在网格环境下与网格数据库相
细胞数字化理论给基于细胞形状变化速率的树木品质预测提供了理论基础。以往使用的传统树木品质评价方法所需的时间长、工作效率低,无法满足对树木进行快捷、准确的预测要求
随着计算机网络与Internet的广泛应用,信息安全成为网上的突出问题。而数据库作为网上信息的主要载体,如何提高其安全性也受到了格外的重视。安全审计机制是信息安全手段中一个
由于传统存储技术DAS的广泛采用,使得数据分散到各个服务器上,并且服务器大多都工作在不同的操作系统平台上(比如HP/UX、Solaris、Linux等),形成了所谓的“信息孤岛”,有鉴于此存
分类是模式识别与人工智能等领域中的主要研究内容之一。随着分类问题的复杂化,如何提高分类系统的精度和效率已成为当前研究的热点。而粗糙集、神经网络与进化算法等软计算方
在实际生活中,图像已经成为人们日常交往之间的交流表达工具。但是由于设备本身物理特性或者周围照明环境的影响,复制和再现图像的效果可能就与作者的意图不一致。特别是对图像
随着互联网的普及,电子邮件以其快捷、方便的优点逐渐发展成为人们工作和生活的重要通信工具之一。然而,随之而来的垃圾邮件问题也日益严峻,它不仅传播有害信息,而且耗费大量