论文部分内容阅读
随着Internet的快速发展,网上的数据量不断增加,人们对网上信息的应用需求也不断提高。但是传统的Web信息查询大多数是基于HTML语言的,由于HTML在语义表示方面上存在一定的缺陷,导致了XML及相关技术的快速发展。如何对基于XML文档数据快速地、有效地、全面地进行信息搜索,并进一步挖掘结构及语义信息,成为人们急需解决的课题。本文针对这一问题,提出了一种对基于XML文档的树型结构进行编码的方法,采用编码形式对数据源进行信息查询,并对查询结果进行结构相似性匹配,按照用户需求检索出用户所需要的信息。为此,本文作者从以下几个方面进行研究和探讨:首先,本文介绍了XML检索技术的发展现状,对信息检索技术的各种方法进行了回顾,简述了对基于XML文档的树型结构进行匹配的基本原理与分类。其次,本文在分析了查询过程中的两类查询方法后,提出了一种查询方法,在保持了XML文档树型结构的基础上进行索引标记(也就是进行编码),然后进行结点查询,将满足匹配原则的结点析出,从而保持结点间的结构关系,通过文中给出的匹配度计算公式计算其匹配度,将满足用户需求的结果反馈给用户。然后,本文通过举例分析说明了本方法的特点:1.当数据源发生变化时,可减少重新扫描的数据量;2.查询过程中,可以使用户清楚地了解到每一步结点信息的查询情况;3.本文的查询方法是在查询有效结点的基础上进行结构相似性的匹配,也就是在保证查找出用户需求信息的基础上,对这些信息的结构进行匹配,所以本方法保证了一定的查准率和查全率。最后,本文还对树的拓扑、子树的查询与树的剪枝等问题进行了探讨,以实现智能化信息检索。