论文部分内容阅读
本文面向实际应用,在当前非结构化数据相似搜索的索引技术基础上针对KNN查询和索引存储进行了性能和可靠性方面的优化。
在KNN查询方面,针对树型索引结构比较了RKV算法和HS算法,指出了其在实际应用中不同的适用场景:通过将可预计算的部分保存在索引结构中,降低了KNN查询中的距离计算代价。
在索引存储方面,针对非结构化数据的高维特性采用了将索引页所含的向量单独存储的方法,降低了因索引存储利用率不足所导致的空间浪费;在索引页的缓冲管理方面分析了传统替换策略的不足,并基于对索引页访问概率的分析给出了一个效果较好的替换策略TKL;在索引文件的完整性维护方面,基于对脏页间的相关性分析提出了以相关脏页超集为单位的脏页回写方式,降低了索引完整性被破坏的概率,并进一步给出了一个使索引文件具有完整性自恢复能力的方案。本文的工作已在方正智思知识管理系统中得到了应用,并取得了良好的效果。