关系数据库中XML全文检索的设计与实现

被引量 : 1次 | 上传用户:lilei1984lilei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的信息化,传统的关系数据库已经不能满足人们的某些应用。在关系数据库上增加新的功能特性成为当前的主流的研究方向。例如地理空间数据库,流数据库,XML数据库和全文检索就是数据库系统急待增加的功能,目前DB2 Version 9已经实现对XML数据的支持,Oracle, SQL Server等主流产品已经支持全文检索功能。一旦数据库拥有了全文检索的功能,用户就可以通过SQL语句进行关键字的查询,而且可以完成聚集、连接等一系列复杂的查询。这是一般搜索引擎所不能办到的。另一方面伴随着XML逐渐成为数据交换的标准,对XML文档的查询也是当前的一个研究热点。随着网络和Internet的发展,数据交换的能力已成为新的应用系统的一个重要的要求。XML的优势是数据的可交换性(portable),同时在数据应用方面还具有如下优点:(1)XML文件为纯文本文件,不受操作系统、软件平台的限制;(2)XML具有基于Schema自描述语义的功能,容易描述数据的语义,这种描述能为计算机理解和自动处理;(3)XML不仅可以描述结构化数据,还可有效描述半结构化,甚至非结构化数据。目前业界主流的产品实现还是集中在对XML文档的结构化查询上,而对XML的关键字检索的工作还处于刚刚起步的阶段。结构化的XML文档为什么还需要关键字检索呢?关键字的检索有自己的特点:用户不需要知道XML的结构信息也不需要知道复杂的XML查询语言。对于普通用户来说他们更喜欢这种简单关键字的检索。因此XML的关键字检索有着非常广阔的应用前景。本文以公司项目中开发的Sphinx关系数据库为基础,在其上设计并实现了XML全文检索的功能。我们的系统有如下一些特点:●支持XML文档的检索,查询的粒度可以控制,可以是在XML文档的元素Element级别也可以是在文档级别。●Sphinx中的全文检索功能和数据库查询引擎句紧密地结合在了一起,用户可以完成一些较为复杂的基于关键字的查询。●设计了一种新的自索引的倒排结构可以很好的应用于XML全文检索。●支持对XML文档的重要度和XML元素的重要度排序。实验证明使用我们的全文检索进行检索时查询速度很快,而且在全文检索的功能上符合用户要求。
其他文献
[背景]肺动脉高压(pulmonary hypertension, PH)是一组以肺血管阻力持续增加为特征的具有潜在破坏力的严重疾病,动脉型肺动脉高压(pulmonary arterial hypertension,PAH)是PH
目的评价2013年江西省麻疹/风疹实验室网络运转情况。方法对2013年江西省麻疹/风疹实验室网络各项监测运转指标进行分析与评价。结果江西省麻疹实验室网络于2013年新建立了麻
近年来,1,3_甘油二酯(DAG)由于其广泛用途及健康作用日益受到人们的重视。报道了一种无溶剂条件下填充床反应器中连续酶促合成1,3_DAG的方法。研究了填充柱的长径比、进料体
产业结构是指一个国家或地区各类产业内部各部门或行业间、各类产业之间的比例及其相互之间的依存、制约关系。产业结构分类包括三次产业结构、轻重工业结构、各产业内部结构
镁合金是目前工业上最轻的金属结构材料,它具有密度低,比刚度、比强度高,阻尼减震性好,易切削加工,以及良好的可回收利用等优点,得到普遍应用。但是镁合金低的耐蚀耐磨性能制
[目的]了解未婚先孕者的年龄、职业、文化程度、避孕知识知晓情况、青春期生殖健康知识和信息获取途径、健康教育服务形式需求等,为开展生殖健康教育提供依据。[方法]采用问
从自媒体发展开始,新闻自由即是新闻活动的表现形式与空间,而媒体责任是新闻自由的新闻媒体赋予新闻自由的一种义务,因此,媒体责任与新闻自由不仅是新闻媒体两个重要的组成部
研究了一株嗜热子囊菌产过氧化氢酶的摇瓶发酵条件 ,并对其在纺织工业中的应用潜力进行了评价。以2 0g L糊精和 1% (V V)乙醇为混合碳源时 ,过氧化氢酶酶活达到 15 94u mL ,
毕业环节是高职学生走上工作岗位前的最后一次综合性实践教学活动,其目的在于通过该环节进一步培养学生运用所学知识进行独立设计的能力、试验操作的能力、分析解决问题的能
目的研究重复经颅磁刺激(r TMS)治疗精神分裂症阴性症状(NSS)的临床疗效。方法选取精神分裂症患者50例,按照随机数字表法分为实验组(采用真刺激模式)和对照组(采用伪刺激模式),各25例