一种基于共享前缀的两级索引结构

来源 :计算机工程与科学 | 被引量 : 0次 | 上传用户:hzjojo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大多数倒排索引结构并未提出词汇表的组织形式,传统的基于Hash算法组织的词汇表存在大量碰撞的索引词。本文提出一种基于共享前缀的两级索引结构,通过对汉字、英文、数字进行统一编码,把具有相同首字的索引词映射到一级索引的相同位置;二级索引使用共享前缀树的结构组织索引词,既能通过二分查找快速定位索引文件存储块的位置,又能通过共享前缀的方式减少对相同字的存储,有效地减少了索引文件占用的存储空间。实验结果表明,该结构索引文件与源文档大小的压缩比达到0.59,与顺序索引和Hash索引相比,具有较高的时空效率。
其他文献
【目的】本文研究了不同氮肥处理对苏达盐碱地水稻的碾磨品质、外观品质、营养品质以及食味品质的影响。【方法】以垦粳7号和垦粳8号为材料,在大田条件下设置氮肥基肥∶蘖肥
国家重点基础研究发展计划开始于1997年3月,又称973计划。10年来,该计划取得了如下成效:
在提取纹理图像的Haar型LBP特征中,人为设定的判断阈值主观性强、局部性差,导致提取的纹理细节和边缘模糊、纹理图像的局部性易被忽略。为此,提出了一种自适应的Haar型LBP纹理特征提取算法。该算法在二值化Haar型特征时引入高斯加权矩阵,以此获得客观、符合纹理图像局部特征的自适应判断阈值和Haar型LBP特征。实验结果表明,该算法能够有效地避免人为设定阈值对纹理特征的影响,可以准确地描述图像的纹
摩托罗拉公司的科研人员设计出一款外形奇特的概念社交手机。如果你是一位社交名流.而又无法规划一天的工作与应酬,那么这款手机将会是你独一无二的工具。它就好比一个个人数字
【目的】对70份外引改良玉米种质材料进行抗病性鉴定,筛选出抗病材料,为抗病玉米育种奠定基础。【方法】同时采用田间人工接种鉴定和自然发病两种方法,对70份外引改良玉米种
【正】 浑浊程度是水中悬浮杂质与胶体光学性质的综合反映,它主要决定于颗粒种类、大小、形状、颜色、折射率等物理性状。浑浊度(或浊度)是表示浑浊程度的单位。目前,浑浊度
ABB集团推出了全球速度最快的码垛机器人——IRB460。该机器人为紧凑型4轴机器人,主要用于生产线末端的高速码垛作业。其操作节拍最高可达每小时循环2190次,运行速度比同类常规
中国科学院上海光学精密机械研究所成功研制出多路并行激光直写装置.该装置采用波长为405nm的蓝光激光光源、尼康0.9数值孔径的透镜.以及自动聚焦系统.实现了25路高精度并行激光