关于XML检索和索引技术的研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:huangyi802
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet和WWW的迅速发展,Internet上的资源日趋丰富,为了帮助人们在浩如烟海的互联网中得到有用的信息,基于Internet的各类信息检索服务应运而生并得到了迅速发展。但是,仅仅检索出文档和网页已经不能满足现在用户的需求,人们希望能够获得最精准的信息,这种信息应该具有一个合适的粒度,在这个粒度上检索结果包含最少的无用信息。而XML作为一种用户自定义的标记语言,可以很好的解决这个问题。目前,XML已成为万维网数据表示和交换的标准,随着XML文档的大量涌现,XML检索成为目前研究的热点方向之一。XML作为一种半结构化数据,既不同于数据库记录中的结构化数据,也不同于文本文档(如HTML)的非结构化数据。尽管基于HTML关键字的搜索引擎已取得很大的成功,但由于XML与HTML在诸多方面存在差异,若不加修改直接用于XML数据查询,则不能完全发挥XML所带来的好处。HTML是一种表示性的语言,包含的语义很少,XML允许扩展元素标记,在这些扩展标记中,包含了更多的语义信息。通过对XML检索的研究,我们可以合理充分的利用XML中的语义信息,从而为用户返回更为精确的查询结果。在XML检索中,有效的XML索引可以加快检索速度,减少用户等待时间,因此,针对XML数据建立有效的索引机制是实现高效查询的重要手段,是左右XML数据处理性能的重要因素,这也成为Web信息检索的一个重要研究点。针对XML数据索引问题,本文通过对现有的XML索引技术进行分析,建立了基于Dewey编码的新型索引PCiD(Path & Content Index)及其查询处理方法。该索引不同于其他索引的一点,在于使用了结构/内容分而治之的思想,即为路径信息和值信息分别建立索引。该索引使用路径索引保存路径信息,这样任何一个结构化查询中的路径信息,可以在路径索引中轻松的找出与之相匹配的元素;另一方面,使用内容索引存放XML文档中的值信息,对于结构化查询中的值限制,我们可以在内容索引中找出与之对应的索引项,并进行处理。最后通过合并两个索引得到结果,找到用户所查询的元素,并将其返回。该索引的优势在于,一方面它能够解决路径索引在处理分支查询时需要拆分成单路径查询的问题。一方面,通过采用Dewey编码,解决了结点索引中不能快速判断XML文档树结点之间关系的问题。最后,本文通过实验证明了该索引的有效性。
其他文献
麝香是一种稀有的药材,是国家的重要战略资源,但产量严重落后于需求。我国上世纪50年代即开展的人工养殖,至今收效不明显,主要原因是,林麝育种成活率低、生产管理技术落后。
现代教育技术是随着现代科学技术发展而产生的一种新型教育技术,多媒体网络教学系统是现代教育技术的重要表现形式。然而,目前的多媒体网络教学系统的多采用C/S或B/S模式,即
作为人工智能一个新的分支,蚁群算法以其较强的鲁棒性、优良的分布式计算能力、易于与其他方法相结合的优点受到了越来越广泛的关注;应用涉及到从一维静态问题到多维动态问题
时间是现实世界的固有属性,许多数据库都存在时态语义问题,增加了时间因素的关联规则研究是非常有意义的。增加了时间因素也使数据库变得复杂。本章对时态事件空间给出定义,
双目立体视觉是用两个摄像机对同一景物从不同视角拍摄图片并根据成像几何关系获取三维场景。把基于双目立体视觉的三维重建和跟踪技术应用到计算机辅助外科手术的立体导航定
随着计算机处理器核数的不断增加,静态随机访问存储器因功耗和技术限制,已经无法满足系统越来越大的缓存需求。虽然动态随机访问存储器的容量足够大,但是由于它的高延迟特点,一直
当今,随着国内电信业的改革,各运营商在企业大客户、长途业务、IP业务、移动业务等领域展开了激烈的竞争。传统的以技术为驱动、以销售产品为目的的市场战略逐渐被以客户为中
面向服务架构(SOA)是一种用于构建复杂企业级应用系统和分布式系统的先进的软件架构,具有松耦合、平台无关等良好特性。SOA软件架构为构建具有灵活性、良好的互操作性的企业
无线传感器网络综合了传感器技术、嵌入式计算技术、无线通信技术,有着广泛的应用前景,被认为是21世纪最重要的技术之一。而由于传感器节点自身的能量,存储和处理能力的局限
语音识别是模式识别领域的一个重要的研究课题,它的发展将会对未来的人机交互界面带来极大的影响。语音识别是一门涉及面很广的交叉学科,它与语音学、语言学、人工智能、数字