论文部分内容阅读
随着互联网的快速发展,网上的信息呈指数级增长,涌现了海量的XML数据,如何处理这些数量庞大的XML数据已经成为非常重要的研究课题。关系数据库技术已经十分成熟,在数据管理中占据着主导地位,如何利用关系数据库来实现XML数据管理已经受到了广泛的关注和重视。
XML数据管理很重要的一个研究领域就是XML全文检索。全文检索作为近年来的研究热点取得了很多新成果和新突破,但是对于XML这种异构结构与文本内容结合的半结构化数据的全文检索,许多数据库系统都对其支持不够。因此,寻找一种能够满足XML这种半结构化数据的全文检索方案具有重要的现实意义。
本文通过了解目前主流关系数据库对XML数据的支持情况,最终选择以关系数据库PostgreSQL为研究对象,在对其体系结构进行研究的基础上,深入剖析了其全文检索模块的机制,利用其全文检索TSearch2模块,实现了基于PostgreSQL数据库的XML数据全文检索。具体工作如下:
1.实现了PostgreSQL的中文全文检索。PostgreSQL不支持中文全文检索,本文通过对其核心函数的重写和配置文件的修改,去除了中文的StopWords,利用ICTCLAS分词系统实现了PostgreSQL中的中文全文检索功能。
2.研究了XQuery and XPath Full Text1.0标准,在PostgreSQL中实现了FTContainsExpr表达式功能,并在此基础上实现了score语法;实现了全文检索的几个主要功能模块:Cardinality Selection、Logical Full-Text Operators和Positional Filters。
3.改进检索模型,提高了检索效率。比较了几种经典的信息检索模型,由于XML数据的半结构化特性,考虑XML的结构特征对检索结果排序的影响,改进了传统向量空间模型,对检索结果进行相关性排序计算时,综合考虑了全文检索的关键字频率分布特征和XML数据的结构分布特征,提高了XML数据的全文检索性能。