论文部分内容阅读
随着Internet信息的迅速增长,整个Web信息已经被各种各样可搜索的在线数据库所深化,这些信息隐藏在Web查询接口下面,传统的搜索引擎由于技术原因不能索引这些信息,称之为Deep Web信息。
Deep Web中蕴含了海量的可供访问的信息,并且还在迅速的增长。这些信息要通过查询接口在线访问其后端的Web数据库。尽管丰富的信息蕴藏在Deep Web中,由于Deep Web数据的异构性和动态性,有效地把这些信息加以利用是一件十分具有挑战性的工作。Deep Web数据集成至今仍然是一个新兴的研究领域,其中包含有若干需要解决的问题。总体来看,在该领域已经开展了大量的研究工作,但各个方面发展并不均衡,而且Deep Web离应用阶段还需较长的时间,大量关键的问题需要深入细致的研究。
本文介绍了Deep Web概念、规模、Deep Web产生的原因以及Deep Web信息集成系统的基本框架。对Deep Web中的关键技术——模式匹配进行了重点的研究,通过对目前基于聚类的模式匹配方法进行分析和比较,发现这些基于聚类的模式匹配方法不能实现m:n映射关系,针对这些问题提出了一种新颖的基于聚类的复杂模式匹配算法(CSM),根据成组属性和同义属性的定义,提出了成组属性和同义属性的判断方法,并在聚类过程中,根据属性间相似度的加权平均值和属性间距离加权平均值成反比的关系,给出一种计算聚类中心点的方法;聚类后,不仅能够发现1:1模式匹配,还能发现m:n复杂模式匹配;采用重采样方法的聚类验证,说明该聚类方法能够得到较优的聚类结果,证明了方法的有效性和实用性。实验结果表明,该方法能从整体上匹配出成组属性和同义属性,有效的发现m:n匹配,并具有较高的准确率和查全率。