中文全文检索系统中索引的研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:abmabc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文全文检索系统是信息产业中发展较快的一个领域,而一个中文检索系统的核心就是索引器,本文介绍了索引器构造的不同算法模型,对相关的技术进行了比较,分析了各自的优缺点和实现难点,提出了一种中文全文检索中索引实现的数据结构和新型的算法模型。 本文首先综述了中文全文检索中索引构造的相关技术,主要包括索引文件数据结构、索引单位选取和索引压缩算法。 在上述综述的基础上,本文采用了基于单字的倒排表文件格式和可变字节编码压缩技术实现了整个索引系统。该系统包括三方面的功能分别是:文本预处理、索引创建和索引更新。 在文本预处理部分实现了中文、外文和特殊字符的分离, 同时实现了停止词(stop word)的删除。 在索引创建部分本文首先给出了一种基于传统倒排表的索引创建算法——合并排序式索引创建算法,该算法需要源文本10倍大小的临时空间。为了解决合并排序式索引创建算法临时空间过大的问题,本文提出了一种新的索引创建方案,该方案采用分级的倒排表索引组织结构和链式顺序混合存储的方式。它不仅不需要额外的临时空间,而且还提高了索引创建的效率。在索引创建的过程中本系统采用了可变字节编码压缩技术对索引进行压缩,实验表明该压缩算法将索引文件大小减少了20—30%。 在索引更新部分本文提出了三种顺序存储方式下准动态的索引更新策略,一种链式存储格式下索引动态更新的算法。该系统采用的链式存储结构下的索引更新算法复杂度达到了O(n)。
其他文献
随着电子技术,通信技术的快速发展,以及互联网的广泛应用,嵌入式系统逐渐成为计算机行业的热点。随着人们对于信息产品功能要求的不断提高,基于单片机裸机的嵌入式系统已经越
图像检测与配准作为图像分析和模式识别的基础,其中涉及到图像处理、信号处理、自动控制等多种技术。其核心在于构造合适的图像分析算法。本文以人脸检测和医学图像配准为例,
软件发布规划存在认知和计算困难等问题。多种不确定性因素使问题很难描述和解决。运用进化方法求解是减轻这些困难的一种途径。为此探讨了这个过程中的形式化描述,提供了一
由于市场竞争的加剧和顾客需求的快速变化,制造企业,特别是汽车制造企业对产品结构定义和产品配置提出新的需求。现在有很多产品配置软件,也有很多有关产品配置的算法,但大多
随着国内外学者们研究的深入以及科技的迅猛发展,如今时态数据库技术的应用与研究越来越变得活跃,成为非常热门的研究领域之一。包含历史信息又同时包含当前信息的数据库可以称
当今因特网各种宽带网络的持续高速发展,把网络拥塞控制这一研究课题带到我们面前,在这一研究领域涌现了好多优秀的理论和实践成果。而卫星通信技术的发展尤其是宽带卫星网络
随着基于组件的软件开发技术的出现,组件——特别是第三方组件的使用,大大提高了软件开发的效率。组件技术的基础是存在大量的组件,因此,组件的可靠性和安全性就显得尤为重要
随着计算机技术和网络技术的飞速发展,互联网上的各种应用应运而生。网络教学是目前网络应用的一个重要发展方向。基于计算机网络技术和多媒体技术的现代网络教学,是传统教学功
在车载目标物识别系统中,图像分割能对车载摄像机所获取的图像序列进行处理,输出要检测的目标物的外接矩形区域,即感兴趣区域(Region of interest, ROI),并交付对象识别模块
学位