论文部分内容阅读
随着电子图书馆,企业办公自动化,互联网的发展,数据库管理系统DBMS中已积累大量的非结构化数据。采用在DBMS的外部建立索引的方法很难保证DBMS中的数据与索引的一致性,不适合对性能或者灵活性要求较高的应用。将全文索引与DBMS有机的结合起来是数据库——信息检索整合(DB-IR Integration,DB-IR)领域目前讨论的一种主流方法。
为了能够快速地检索海量的非结构化数据,需要用到信息检索(InformationRetrieval,IR)领域的全文索引技术。尽管有多种数据结构可以用于实现全文索引,但是目前的主流是使用倒排索引。已有的讨论有机结合方式的论文,使用的是基于单倒排索引段的索引,存在性能低下的问题。针对这一不足,提出在DBMS中使用基于多倒排索引段的全文索引,来提高建立索引和查询索引的性能。根据数据库自身环境的特性改进索引段结构。将数据源表的关键字和关键字的大小序号,直接存储在倒排索引单词的倒排表中,并使用位图存储删除信息。索引段结构的改进可以进一步提高全文索引上的查询和删除操作的性能。通过实验验证,相对于已有的DBMS中的全文索引,DBMS中的基于多倒排索引段的全文索引,在建立和查询索引方面具有性能上的优势。并讨论如何使用B+-Tree这一DBMS中常用的数据结构来实现基于多倒排索引段的全文索引。最后,设计出一套并发控制和日志恢复机制,来解决如何保证索引相关事务ACID特性的问题。