论文部分内容阅读
全文检索 (Full-Text Retrieval) 是基于内容而不仅是外在特征的检索方式,是信息检索的发展。在全文检索的研究上,取得了不小的进展,有很多成型的理论和工具。关系型数据库对于类似文本这类非结构化的数据处理起来没有优势,因此有必要把全文检索技术与数据库结合起来,增强数据库对文本的处理能力。
国家信息产业部的电子信息产业基金招标项目是本文的一个重要课题背景。数据库的全文检索要解决体系结构、分词、索引、存储以及展现等问题,并且对性能要求比较严格。
本文先介绍和分析了全文检索的关键技术,结合 OpenBASE 设计了一个全文检索架构,增加了文本转换、分类器和向量构造器。基于词典的分词方法具有快速、易于实现的特点,本文采用的正是基于词典的并且根据编码特性设计的一种新的分词算法,同时结合了基于规则的消歧、未登录词识别算法,提高分词的准确率。在 OpenBASE 数据库中增加了对全文检索操作的语句,并实现了全文索引的重建和增量更新两种索引更新方式。
测试表明,设计的全文检索系统能够完成中西文的全文检索。应用本系统提高了文本检索的效率,改善了 OpenBASE 的全文检索性能。