论文部分内容阅读
近年来,互联网在世界范围内蓬勃发展,其承载的信息量更是急剧膨胀。互联网承载的数据一部分是可以从Web页面上直接获取的表层数据,另一部分是以结构化方式存储于数据库中的Deep Web数据。Deep Web数据具有非常高的应用价值,但只能通过Web页面提供的查询接口访问;而近年来出现的一些Web应用,为了获取Deep Web数据需要频繁、自动、交叉访问多个查询接口,不仅要求能够识别查询接口元素,更要求理解查询接口语义,因此有必要对查询接口的语义和结构进行建模,从而更好地理解并利用Deep Web数据。概念格理论又称形式概念分析(Formal Concept Analysis)是由德国数学家Wille于1982年提出的一种数学理论。它主要用于知识的形式化表示,同时也是一种有效的数据分析工具。查询接口建模的核心问题是语义关系发现,而概念格对知识的组织方式已被证明非常适合进行语义关系挖掘,因此概念格理论可以有效地解决查询接口的语义识别问题。为了完成查询接口建模,本文提出了一种Deep Web查询接口模型。该模型描述了查询接口的组成要素与组织结构,清晰地表达了查询接口中元素间的语义关系。对于该模型,本文重点研究了相关的建模方法,主要工作包括:第一,给出查询接口的布局矩阵及相关算法。第二,定义用于分析查询接口的维空间,并从理论上证明了基于维空间进行查询接口建模的正确性。第三,研究如何利用概念格理论挖掘查询接口中的语义规则。最后,基于以上模型,本文实现了一个Deep Web查询接口建模系统。该系统主要由HTML解析模块、布局矩阵操作模块、维空间映射模块、语义规则挖掘模块组成。系统提供了接口模型管理功能,可根据用户选择的查询接口进行建模。文中通过实验分析了系统的时间构成和建模准确率,证明了该建模系统的有效性。