XML模糊结构查询中检索结果的自动选取

来源 :江西财经大学 | 被引量 : 0次 | 上传用户:xp968
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
XML具有自描述性和可扩展性等特性,目前它已经成为信息表达和数据交换的格式和标准,被广泛应用到各个领域。因此,对XML文档进行准确的检索具有很大的研究前景。XML文档检索与传统的纯文本检索最大的区别在于检索结果粒度的不同。在纯文本检索中,检索结果的粒度是整篇文档。用户需要在返回的整篇文档中进行再次查找,才能得到自己需要的信息,这样降低检索的准确率。而XML文档检索是以XML文档片段作为返回结果的单位,并非是整篇文档。返回结果的粒度由整篇文档精细为XML文档片断可以提高XML文档检索准确率。XML文档查询的返回结果通常是一组包含关键词的XML文档子树,而结果子树的根节点也就是答案节点的选取是关键。由于XML文档中存在多种粒度的元素,因此需要考虑以什么粒度的元素节点作为答案节点。如何合理地选择答案节点已成了XML文档检索中关键问题之一。XML文档是包含内容和结构的半结构化数据,既可以进行关键词查询,也可以进行内容与结构查询。在关键词查询中,用户只是简单给出若干个查询关键词,没有明确指出返回什么元素;在内容与结构查询中,用户可能不指定答案节点,或者即使指定了答案节点,但是往往是模糊的、不准确的。因此,无论是关键词查询还是内容与结构查询,都需要研究如何根据用户给定的查询表达式推导出答案节点。XML文档中的元素节点可以分实体节点、连接节点、叶子节点和值节点。考虑到答案节点的语义完整性,我们只把实体节点和连接节点作为候选答案节点。关键词查询中,在节点分类的前提下,计算候选答案节点成为答案节点的置信度,选取置信度计分排序在前n、并把存在祖先/后裔关系的祖先节点排除后的候选答案节点作为答案节点。在计算置信度时需要考虑的因素有节点的深度和关键词匹配度。候选答案节点把节点数量巨大的叶子节点和值节点排除在外,候选答案节点的数量一般不太大,因此提高了答案节点的选取效率。内容与结构查询中,如果原始返回节点属于候选答案节点,那么原始返回节点就是答案节点;如果原始返回节点属于候选答案节点,则在沿着原始返回节点的前缀路径向根节点回溯过程中,把遇到的第一个属于候选答案节点作为答案节点。最后,综合考虑关键词的词频、结果子树的大小、节点语义权重、答案节点的置信度等因素,本文提出了一个实用性较强的关键词查询的计分排序公式。在合理选取答案节点的基础上,内容与结构查询的计分公式综合考虑检索结果子树的关键词计分和结构匹配度,同时还考虑了出现在侧枝的关键词对其计分的影响。
其他文献
空间分辨率是图像质量评价的一个重要指标,然而在数字图像的采集和处理过程中,有许多因素会导致图像分辨率的下降,如:传感器的形状和尺寸、光学部件的性能、成像、传输存储过程中
Internet的迅猛发展使流媒体业务正日益普及,同时相关的流媒体技术也随之发展。流媒体技术的核心是流媒体服务器,本课题主要是以流媒体服务器系统为核心进行研究与讨论。HI35
目前,人们已发现了一些分数阶微分系统具有混沌行为,分数阶混沌系统的研究已引起了越来越多的研究者的兴趣,人们考虑两个主要问题是:当一个常微分系统处于混沌状态时,其对应
钢丝绳具有强度高、挠性好、自重轻、耐磨、耐腐蚀等优点,是矿山、石油、桥梁、冶金、化工等诸多生产生活领域的基础元件。长度是钢丝绳成品的一项重要指标,需要在生产线上准
入侵检测技术是网络安全防御中一项重要技术,它和防火墙一起对网络流量中数据包进行分析过滤,能够对进入内网的数据包进行检测,判断是否有非法入侵,增强了整个系统的安全性。本文
本文以课程资源开发原理为基础,以博客为平台,运用文献资料、行动研究、案例分析等方法,从理论、技术和实践三个层面对博客平台上的课程资源的开发利用进行了较为系统的探讨。在
为了加快我省农村信用社电子化建设步伐,尽快改变农村信用社服务手段落后、业务品种单一的局面,省农村信用社联合社提出了构建与市场需求和业务发展相适应的全省农村信用社大
现阶段零售业信息化建设的核心内容是客户价值信息的挖掘——这正是中国零售业面临的重大转折。中国零售企业的信息化建设已经开始迈入了挖掘价值的时代。而零售业是个特殊的
根掘对哺乳动物大脑皮层的解剖学和生理学的研究,越来越多的证据表明虽然大脑皮层分为不同的功能区,但大脑皮层神经细胞和神经细胞的组织结构是相同的。大脑皮层在解剖学上分为
无线传感器网络是目前计算机领域的一项研究热点,为人们获取信息提供了有利条件。传感器节点小容易隐蔽,价格便宜,所以可以大面积分布在要监测区域,而且容易部署、节点自组织