论文部分内容阅读
随着网络规模在全球的迅猛发展,Internet上的信息资料目前在以爆炸性的趋势增长,网上的Deep Web站点越来越多,并且还在迅速地增长。Deep Web数据库通过查询接口向用户提供信息,但是相同领域的众多Deep Web数据库各自独立,如果用户想要查询某领域的信息,需要费时费力地逐个查询每个相关的数据库,所以有必要把同一领域内众多相关Deep Web站点进行集成,为用户提供一个集成的查询接口。DWIIS系统是一个Deep Web信息集成系统,为用户提供了一个“一站式”访问Web数据库的途径。在DWIIS系统的实现中,本文提出一种基于结构特征的Deep Web查询接口集成机制,该机制针对接口的结构差异问题,通过查询接口获取工具对接口表单进行分析得到带有结构特征的查询接口模式树,对模式树进行序列化得到模式集属性序列,按属性序列顺序进行模式匹配得到相似度矩阵,最后借助矩阵运算实现集成接口的构建,从而实现自动化的Deep Web查询接口集成,能够最大限度的提高匹配程度。.本文首先提出了带有结构特征的树状查询接口模型,在查询接口模式的构建过程中需要提取表单的结构特征,进而给出了原子属性和复合属性概念,描述了基于结构特征的Deep Web查询接口模式获取流程;其次,阐述了模式匹配方法,完成对相同领域不同模式中属性的相似度计算,通过模式树的结构特征对属性进行后序遍历生成属性序列,进一步按顺序实现复合属性间的相似度计算,得到相似度矩阵;最后,将相似度矩阵转换成等价矩阵,利用等价矩阵及矩阵运算实现集成接口的构造过程。集成过程中等价属性需要解决大量的冲突,本文对常见冲突进行了分类并提出了解决策略,最终由集成模式生成集成的查询接口,实现Deep Web查询接口的集成。实验表明,本文所提出的技术能够高速、准确地支持Deep Web集成数据查询。