一种基于共享前缀的两级索引结构

来源 :计算机工程与科学 | 被引量 : 0次 | 上传用户:hzjojo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大多数倒排索引结构并未提出词汇表的组织形式,传统的基于Hash算法组织的词汇表存在大量碰撞的索引词。本文提出一种基于共享前缀的两级索引结构,通过对汉字、英文、数字进行统一编码,把具有相同首字的索引词映射到一级索引的相同位置;二级索引使用共享前缀树的结构组织索引词,既能通过二分查找快速定位索引文件存储块的位置,又能通过共享前缀的方式减少对相同字的存储,有效地减少了索引文件占用的存储空间。实验结果表明,该结构索引文件与源文档大小的压缩比达到0.59,与顺序索引和Hash索引相比,具有较高的时空效率。
其他文献
【目的】本文研究了不同氮肥处理对苏达盐碱地水稻的碾磨品质、外观品质、营养品质以及食味品质的影响。【方法】以垦粳7号和垦粳8号为材料,在大田条件下设置氮肥基肥∶蘖肥
在提取纹理图像的Haar型LBP特征中,人为设定的判断阈值主观性强、局部性差,导致提取的纹理细节和边缘模糊、纹理图像的局部性易被忽略。为此,提出了一种自适应的Haar型LBP纹理特征提取算法。该算法在二值化Haar型特征时引入高斯加权矩阵,以此获得客观、符合纹理图像局部特征的自适应判断阈值和Haar型LBP特征。实验结果表明,该算法能够有效地避免人为设定阈值对纹理特征的影响,可以准确地描述图像的纹
【目的】对70份外引改良玉米种质材料进行抗病性鉴定,筛选出抗病材料,为抗病玉米育种奠定基础。【方法】同时采用田间人工接种鉴定和自然发病两种方法,对70份外引改良玉米种