关系数据库中XML全文检索技术研究与实现

来源 :南开大学 | 被引量 : 0次 | 上传用户:zhenlic0300
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,网上的信息呈指数级增长,涌现了海量的XML数据,如何处理这些数量庞大的XML数据已经成为非常重要的研究课题。关系数据库技术已经十分成熟,在数据管理中占据着主导地位,如何利用关系数据库来实现XML数据管理已经受到了广泛的关注和重视。   XML数据管理很重要的一个研究领域就是XML全文检索。全文检索作为近年来的研究热点取得了很多新成果和新突破,但是对于XML这种异构结构与文本内容结合的半结构化数据的全文检索,许多数据库系统都对其支持不够。因此,寻找一种能够满足XML这种半结构化数据的全文检索方案具有重要的现实意义。   本文通过了解目前主流关系数据库对XML数据的支持情况,最终选择以关系数据库PostgreSQL为研究对象,在对其体系结构进行研究的基础上,深入剖析了其全文检索模块的机制,利用其全文检索TSearch2模块,实现了基于PostgreSQL数据库的XML数据全文检索。具体工作如下:   1.实现了PostgreSQL的中文全文检索。PostgreSQL不支持中文全文检索,本文通过对其核心函数的重写和配置文件的修改,去除了中文的StopWords,利用ICTCLAS分词系统实现了PostgreSQL中的中文全文检索功能。   2.研究了XQuery and XPath Full Text1.0标准,在PostgreSQL中实现了FTContainsExpr表达式功能,并在此基础上实现了score语法;实现了全文检索的几个主要功能模块:Cardinality Selection、Logical Full-Text Operators和Positional Filters。   3.改进检索模型,提高了检索效率。比较了几种经典的信息检索模型,由于XML数据的半结构化特性,考虑XML的结构特征对检索结果排序的影响,改进了传统向量空间模型,对检索结果进行相关性排序计算时,综合考虑了全文检索的关键字频率分布特征和XML数据的结构分布特征,提高了XML数据的全文检索性能。
其他文献
旅行商问题(Traveling Salesman Problem),缩写为TSP,TSP问题是一个难于解决的著名数学难题之一。这个问题的特点就是易于描述但是随着样本点数目的增加,计算复杂度呈指数增加。
麦克风阵列技术是当前语音信号处理领域的研究热门,在噪声抑制和声源定位等场合有着广泛的应用,被认为是最有前景的语音增强技术。但实际应用的麦克风阵列和假设的理想阵列模
学位
自动协商的研究具有重要价值,它将传统活动中的协商经验应用于智能化的自动协商中,研究传统活动中协商经验的方法,采用人工智能技术对协商的决策函数、协商提议、协商策略等进行
学位
科学技术的飞速发展极大地改变了人们的生活,但由科学技术推动着的企业生产设施等具有重大安全隐患的危险源,却时刻威胁着人们的生命和财产安全。因此,加强重大危险源的实时
学位
随着生命科学的快速发展,在分子生物学中的一个主要挑战是揭示基因表达的调控机制,也就是说要知道基因表达的激活和抑制怎样实现的。面对这个挑战的一个主要步骤就是识别调控
随着网络的普及及发展,推荐系统越来越多地被应用在实际的商业应用中,越来越多的企业看到了推荐系统的价值。但是推荐系统在应用过程中,存在着数据稀疏性、可扩展性、用户兴
公开密钥加密体制(Public-key Encryption Scheme)也叫非对称加密体制,它的提出使密码学发生了一场根本性的变革,在此体制中使用两个密钥,即加密密钥和解密密钥,在与多个用户
随着Web 2.0的到来,网上信息量急剧增长,用户可利用的数据也越来越丰富。然而,用户不得不耗费大量的时间来获取有价值的信息。特别是大数据时代的到来,信息过载问题已然成为
人脸表情识别(Facial Expression Recognition,简称FER)是人工智能中一个非常重要且十分复杂的课题。人脸表情识别是指利用计算机对人脸图像进行分析,然后对其为哪种表情进行
学位
数据空间(Data Space)是作为解决当前数据管理所面临的挑战而提出的一种新的数据管理技术。随着信息技术的不断发展,数据源多源和多样化特点使的传统以关系数据结构为基础的数据