论文部分内容阅读
数据库管理系统(DBMS)软件是信息系统的核心,是国家战略必争的高新技术。实现信息化带动工业化需要自主产权DBMS,提高我国企业创新能力和市场竞争力需要自主产权DBMS,国家信息安全离不开自己的DBMS,我国民族IT产业的发展更需要DBMS的支撑,业界对这些观点已经逐步达成了共识。
多年来,信息检索界一直在关注文档的存储和按关键字高效检索的问题。随着WWW的出现以及在线保存所有的文档成为可能,基于关键字的文档检索已成为数据库管理系统的重要组成部分。本文在国产数据库GBase项目的基础上,研究了中文全文检索的相关技术,并完成了一个实验系统。
中文分词是基于中文的全文检索研究中一项重要的研究内容,用于从连续的字符流中切分出有意思的词。对于基于词的搜索引擎的全文系统,分词速度要求较高。本文在对中文编码体系和中文分词算法进行研究的基础上,设计了一种高效的中文电子词表的数据结构,它全程支持词的Hash查找。同时提出了一种改进的Hash高速分词算法,理论分析和实验表明,优于目前的同类算法。在引入错误率的基础上,进一步提出了一种字符匹配次数为零的分词算法,它的分词速度更快,占用的内存更少。
全文检索的索引是全文检索的核心内容,它关系到索引的创建代价和检索的速度与精度。目前最流行的索引类型是倒排文档。本文介绍了倒排文档的基本结构,索引创建流程,相关度的计算。并对于倒排文档的压缩进行研究和实现,取得了良好的效果。
最后,本文实现了一个国产数据库的全文检索试验系统,该系统有三个核心模块:分词模块、查询模块、索引模块。在分词模块使用改进后的分词算法,并且实现对布尔查询的支持。