XML文档搜索中的查询处理技术研究

来源 :江西财经大学 | 被引量 : 34次 | 上传用户:hdazf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于有着可扩展性和自描述性等特点,XML格式得到了越来越多的采用,其结果是产生了大量以XML格式表示的文档。随着XML文档的大量涌现,用户迫切地需要对XML文档进行有效地查询。但是由于XML文档结构比较松散,往往存在大量的文本(尤其是在以文本为中心的XML文档中),用户难以了解XML文档的结构;而且XML查询语言比较复杂,用户亦难以掌握XML查询语言,这使得以XML数据库技术为代表的XML精确查询技术不能满足用户的需求,在此背景下,信息检索(IR)方式的XML文档搜索由于其用户友好性而受到了越来越多人的注意。目前,传统的信息检索技术比较成熟,但它们主要是针对HTML文档和文本文档,没有考虑XML文档的结构信息,无法体现XML信息检索的特点。随着XML文档的急剧增长,传统的搜索引擎已很难满足用户需求,XML信息检索将会成为下一代搜索引擎发展的重要方向之一,也将在众多行业如网络信息检索、数字图书馆等领域得到广泛的使用。本文研究了XML文档搜索中的查询处理技术,研究范围从用户提交XML查询开始,到产生最终的检索结果呈现给用户为止,研究的问题是对于用户提交的XML查询,如何有效地产生以合适的形式表示的、有意义的检索结果。在处理XML文档上的关键词或者带关键词的查询时,有两个问题非常重要:(1)XML文档中存在大量的标签,使得XML文档形成一种树状结构,于是XML文档搜索可以在一个更细的粒度上进行,即以子树或者结点为单位来匹配和返回。有效的XML文档搜索需要对XML文档中不同的结点(标签)有一个清晰的理解,如哪些部分更重要,应该返回哪些部分等。(2)XML数据模型比较复杂,XML文档中各种信息掺杂在一起,而XML检索表达式的表达能力相当有限,于是当用过于简单的表达式来查询复杂的XML文档时,往往存在歧义和语义上的模糊。有效的XML文档搜索需要对XML查询有一个深入的理解,理解查询的意图,这样才能忠实地反映出XML文档与查询之间的相关性。基于这样的出发点,本论文将语义作为核心,基于XML文档的语义来选择答案结点,通过查询语义来反映XML查询的意图,通过查询和结果语义上的相关性来对查询结果计分,围绕查询语义来返回组织良好的检索结果。我们认为,这种特点抓住了XML信息检索的关键,能够产生较好的检索效果。具体来说,研究了以下内容:(1)研究了XML文档检索中答案结点的语义推导问题。在对XML文档进行检索时,首先遇到的一个问题是,对于用户给出的查询,返回什么样的结点/检索结果是符合用户查询意图的。针对这一问题,我们分析了理想答案结点应满足的准则,以及XML文档中的结构信息、内容信息和用户查询信息与理想答案结点之间的关系。提出了根据XML结点类型和用户查询信息推导答案结点语义的方法。(2)针对当前XML文档搜索系统存在的一些缺陷,研究了XML关键词检索结果的聚类问题,提出了一个新的聚类方法,该方法的核心是答案结点与关键词查询的匹配模式。为了实现该聚类方法,我们提出了两种实现方法:Lazy方法和Eager方法,Eager方法能够保证产生与Lazy方法相同的聚类结果,但效率更高。还研究了聚类产生的簇的排序以及簇内部的检索结果的排序。(3)研究了有效的结构与内容检索(Content and Structure, CAS)查询处理问题,分析了已有的方法面临的问题,即不够灵活,有针对性地提出了一种新的CAS查询处理方法。这种方法以内容为主,结构为辅,能够较好地克服当前技术的一些问题,并特别适用于异构环境下的XML信息检索。(4)设计和开发了一个XML文档检索的原型系统XSense,它支持关键词检索和结构与内容检索。特别探索了支持XML文档搜索的索引结构,提出了一种新的XML编码结梅LCT编码,围绕LCT编码构建了XML结构和内容索引,支持各种结构查询和内容查询。本文的创新性工作体现在:(1)提出了一种新的XML检索的答案结点语义。一方面利用结点的语义,要求答案结点必须是有意义的;另一方面分析了XML查询与查询匹配之间的关系,要求在答案结点中关键词匹配之间的联系必须是有意义的。实验测试表明,与现有的答案结点语义相比,该方法能够更好地产生有意义的答案结点。(2)提出了一种新的面向XML文档搜索的结果聚类方法,以及高效的实现算法。这种聚类方法的特点是:它可以实现对XML查询的消歧,将不同语义的检索结果归类到不同的簇中;可以大大节省用户在浏览检索结果时的无用劳动;有助于用户更全面地理解检索结果集,也有助于扩展用户兴趣。大量的实验结果证明,这种聚类方法是有效的,能够产生有意义的聚类结果,而且聚类结果对于用户而言也是有帮助的。从时间效率上看,该聚类方法可以有效地实现。(3)提出了一种新的XML结构与内容检索的思路,该思路不同于其他工作的特点是:它采取了一种分解——检索——合并的思路,并且在检索中,采取以内容为主,结构为辅的思路,使得该方法具有很好的灵活性和自适应性。实验证明,该方法无论是对于同构文档还是异构文档都能取得很好的检索结果。通过本论文的研究,取得了一些重要的研究成果,这些成果丰富并推动了XML信息检索的研究,并为后续研究打下了坚实的基础。
其他文献
近年来,孔子学院发展迅速,已成为中国文化海外传播的重要平台。武术文化作为中国传统文化的宝贵财富,依托孔子学院为武术文化的传播扩宽了新的渠道,提供了新的机遇。文章运用
理论上,可以通过考察实际生产状态与潜在最优生产状态之间的差距,反映资源利用效率与市场扭曲程度。通常可以区分三类市场扭曲:生产无效率与要素市场局部价格扭曲、产品市场
以稻瘟霉分生孢子和菌丝体形态变化为活性指标,从由全球各海域采集到的400多个海洋微生物菌株(细菌、真菌和放线菌)中初步筛选出98株活性菌株。采用溶剂法和各种色谱法(硅胶柱
本文对某型号飞机关键零件技术论述,对将来零件的加工提供了便利的参考。
以甘肃省14个地州市为研究对象,运用面板数据模型和多元线性回归模型分析2006-2016年不同资金来源对城镇化贡献度。结果显示:就全省而言,发行债券和其他资金是促进城镇化水平
目的观察他汀类药物联合心血管药物治疗冠心病的临床效果。方法对我院2014年5月~2014年5月收治的218例冠心病患者的临床资料进行回顾性分析。全部患者中,其中109例实施了常规
西方普世价值论者宣扬一种适用于世界上所有人和任何时代的永恒不变的价值观念,其实质是把西方特有的价值观念强加于其他国家,是一种意识形态领域的霸权行为。普世价值论建立
保护和改善生态环境是当今世界全人类面临的共同问题,随着近年来我国经济的快速发展和现代化城市建设步伐的加速,生态园林城市建设被列为重要议事日程。园林绿化作为生态型城
目的比较不同干预模式在老年支气管哮喘患者自我管理中的效果。方法选取2013年12月至2015年12月空军总医院干部病房三区收治的老年支气管哮喘患者158例,根据入院先后顺序分为
进入新时期后,网络技术发展迅速,方便了人们的生活和工作,促进了社会经济的发展。但是,在诸多因素的影响下,计算机网络信息系统还存在着较多的安全问题,需要引起人们足够的重