数据库中基于多索引段的全文索引研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:xuxing22223
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子图书馆,企业办公自动化,互联网的发展,数据库管理系统DBMS中已积累大量的非结构化数据。采用在DBMS的外部建立索引的方法很难保证DBMS中的数据与索引的一致性,不适合对性能或者灵活性要求较高的应用。将全文索引与DBMS有机的结合起来是数据库——信息检索整合(DB-IR Integration,DB-IR)领域目前讨论的一种主流方法。   为了能够快速地检索海量的非结构化数据,需要用到信息检索(InformationRetrieval,IR)领域的全文索引技术。尽管有多种数据结构可以用于实现全文索引,但是目前的主流是使用倒排索引。已有的讨论有机结合方式的论文,使用的是基于单倒排索引段的索引,存在性能低下的问题。针对这一不足,提出在DBMS中使用基于多倒排索引段的全文索引,来提高建立索引和查询索引的性能。根据数据库自身环境的特性改进索引段结构。将数据源表的关键字和关键字的大小序号,直接存储在倒排索引单词的倒排表中,并使用位图存储删除信息。索引段结构的改进可以进一步提高全文索引上的查询和删除操作的性能。通过实验验证,相对于已有的DBMS中的全文索引,DBMS中的基于多倒排索引段的全文索引,在建立和查询索引方面具有性能上的优势。并讨论如何使用B+-Tree这一DBMS中常用的数据结构来实现基于多倒排索引段的全文索引。最后,设计出一套并发控制和日志恢复机制,来解决如何保证索引相关事务ACID特性的问题。
其他文献
为了规范实验教学、提高实验教学信息管理水平,论文根据高校实验教学与实验室信息管理的特点,在进行广泛调研和方案比较的基础上,设计并实现了基于嵌入式管理终端的实验室信息网
虚拟化技术复兴以后,基于其上的软件技术逐渐成为一个重要的研究领域。如今,利用虚拟化技术构建高性能计算应用所需的运行环境正成为一种流行趋势。同传统计算模式相比,虚拟化技
提高嵌入式系统的性能并同时降低系统能耗已经成为各个应用领域中的研究热点问题,对于数据密集型的多媒体应用显得尤为重要,因此专门针对多媒体应用的数字信号处理器(DSP)被
工程分析是产品设计过程中评价设计正确性的重要步骤。通常我们利用CAE软件(如NASTRN,ANASYS等)对来自CAD软件的产品模型进行分析计算从而确定设计、强度、应力等指标是否符合设
传统光学显微技术的发展已有近三百多年的历史。近代计算机技术的快速发展以及数字图像处理技术的进步促生出新型的虚拟显微镜系统技术。这些早期的系统为支持远程访问服务采
随着网络的普及以及数字化信息量的爆炸式增长,大型计算机系统正从“以计算为中心”向着“以信息处理为中心”转变,传统的集中式存储服务由于其容量、性能、安全的限制,已很难满
随着无线网络技术的发展,3G网络技术全面普及,越来越多基于3G网络的应用需求迅速增长。近些年,人们不再满足传统手机业务的信息量过少、视觉体验不够丰富,手机视频、手机电视
随着互联网技术的普及与进步,我国网民数量得到很大突破的同时,计算模型也随之产生了深刻的变革。自云计算以来,现如今移动计算可谓是如日中天的新型计算模型。利用移动互联
网络环境随着技术发展变得越来越复杂,各类恶意代码层出不穷,对抗恶意代码已成为计算机安全研究的主要内容之一。同时,在网络取证及信息对抗中,恶意代码作为一种辅助手段,正
随着无线通信技术、嵌入式技术以及传感器技术的不断发展和进步,生产具备无线通信和信息处理能力的微型无线传感器网络节点已经成为可能。这些廉价、低功耗的节点大量部署在观