【摘 要】
:
大多数倒排索引结构并未提出词汇表的组织形式,传统的基于Hash算法组织的词汇表存在大量碰撞的索引词。本文提出一种基于共享前缀的两级索引结构,通过对汉字、英文、数字进行
【基金项目】
:
国家自然科学基金资助项目(90604006)
论文部分内容阅读
大多数倒排索引结构并未提出词汇表的组织形式,传统的基于Hash算法组织的词汇表存在大量碰撞的索引词。本文提出一种基于共享前缀的两级索引结构,通过对汉字、英文、数字进行统一编码,把具有相同首字的索引词映射到一级索引的相同位置;二级索引使用共享前缀树的结构组织索引词,既能通过二分查找快速定位索引文件存储块的位置,又能通过共享前缀的方式减少对相同字的存储,有效地减少了索引文件占用的存储空间。实验结果表明,该结构索引文件与源文档大小的压缩比达到0.59,与顺序索引和Hash索引相比,具有较高的时空效率。
其他文献
【目的】本文研究了不同氮肥处理对苏达盐碱地水稻的碾磨品质、外观品质、营养品质以及食味品质的影响。【方法】以垦粳7号和垦粳8号为材料,在大田条件下设置氮肥基肥∶蘖肥
在提取纹理图像的Haar型LBP特征中,人为设定的判断阈值主观性强、局部性差,导致提取的纹理细节和边缘模糊、纹理图像的局部性易被忽略。为此,提出了一种自适应的Haar型LBP纹理特征提取算法。该算法在二值化Haar型特征时引入高斯加权矩阵,以此获得客观、符合纹理图像局部特征的自适应判断阈值和Haar型LBP特征。实验结果表明,该算法能够有效地避免人为设定阈值对纹理特征的影响,可以准确地描述图像的纹
【目的】对70份外引改良玉米种质材料进行抗病性鉴定,筛选出抗病材料,为抗病玉米育种奠定基础。【方法】同时采用田间人工接种鉴定和自然发病两种方法,对70份外引改良玉米种