Web数据库集成技术及其发展趋势

来源 :硅谷 | 被引量 : 0次 | 上传用户:ceylong2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:从集成架构角度介绍Web数据库集成技术的发展现状,并对web数据库集成技术的发展趋势进行分析。关键词:Web数据库;Deep Web;数据库集成
  中图分类号:TP31 文献标识码:A 文章编号:1671—7597(2012)0510001-02
  0 引言
  现今Web已经成为Internet信息获取和资源共享的重要手段,整个Web中几乎包含了大量我们所需要的信息。其中海量的Web数据库分布在世界各地,内容涵盖了现实世界的各个领域,是十分丰富而重要的信息资源,这种Web中蕴含的深度信息也称为Deep Web,是目前一个新兴的研究领域,由于Web数据在形式、内容和结构上有很大差异,从中自动获取有价值的信息并不容易,如何有效地利用这些信息资源是一项迫切而有挑战性的工作,Web数据库集成技术立足以自动的方式对海量、异构以及无序的Web数据库进行有效的利用,随着Web应用在深度和广度上的不断拓展,Web数据库集成技术显示出了广阔的发展空间和重要意义。
  1 Web数据库集成框架
  随着人们对Deep Web领域的关注,Web数据库集成技术得到了很大的发展,同时也存在着许多的研究问题,有必要对Web数据库集成框架有一个全面的认识,文献[1]中给出了一种较为全面的Deep Web数据集成系统架构,该架构将Web数据库集成系统划为三个模块:查询接口集成模块、查询处理模块和查询结果处理模块,见图1,下面就此架构对Web数据库集成的各模块进行介绍:
  1.1 查询接口的集成
  查询接口的集成包括web数据库发现、查询接口模式抽取、Web数据库分类和查询接口集成:
  Web数据库发现指在大量web网站中发现可访问的数据库,按照先找到网站,再发现数据库查询接口的步骤进行,第一步的解决方法有:从已有的按领域分类的Web数据库网站中获取,如completeplanet.com等,但规模有限;理论上可以遍历所有网络IP,找出含有的Web数据库,但实际代价过高;通过向搜索引擎提交有效的查询,尽可能多地找到某个领域的Web数据库网站,文献提出了一种基于机器学习的查询自动生成器方法来为搜索Web数据库提供互动查询建议,并能提高搜索效率,对第二步解决的关键是如何将查询接口从网站大量的Form元素中准确地区分出来以及降低代价,目前的解决方法主要通过对查询接口的位置、标识及搜索深度等特征分析来高概率识别查询接口。
  查询接口模式抽取是指通过对查询接口的属性进行分析和重组,获得完整的查询接口特征集合,模式抽取的关键是如何准确地抽取查询接口中包含的各个属性,主要的解决方法有采用文法分析、页面结构分析、本体技术等对属性进行抽取,其中已经开发的抽取工具WISE-iExtractor适合于复杂接口的抽取。
  Web数据库分类即按照抽取的查询接口模式信息对web数据库进行分类,由于查询接口通常按照领域进行集成,web数据库同样按领域进行分类,所以这种分类实质上是对查询接口的分类,由于web数据库数量庞大,人工进行分类显然是不现实的,所以主要研究web数据库的自动分类,web数据库分类通常有两种方式,一类是根据查询数据库返回的结果页面内容进行分类,另一类是根据网页页面及表单中的文本信息对数据库进行分类,其中使用了网页上下文感知、领域样本查询以及模型匹配等技术方法。
  查询接口的集成过程最后利用查询接口的模式信息和语义信息识别不同查询接口属性之间的匹配关系,从而获得一个属于特定领域、集成的查询接口,目前查询接口集成技术得到了较为广泛的研究,技术日趋成熟,已经提出并实现了查询接口集成的原型系统。
  1.2 查询的处理
  查询的处理是指将用户在集成接口上的查询转化到对各个Web数据库的本地查询,这部分包括web数据库选择、查询转换和查询提交子模块:
  Web数据库选择涉及到如为特定用户何选取合适的数据源。其中降低访问数据库的数量和查询结果的冗余是关键问题,这需要解决web数据库特征获取的问题,结构化的web数据库主要是关注各个属性上值的分布特征,而非结构化的web数据库主要关注特定查询返回结果的数量,而对于搜索引擎的选择目前已有了许多较为成熟的工作,其中一些技术思想可以借鉴到对结构化的web数据库选择的实现中。
  查询转换是指将用户在集成查询接口上提交的查询转换到Web数据库本地的查询,查询提交是指自动地将转换后的查询进行提交,其关键是如何在集成查询接口与数据库本地查询接口之间进行等价的查询转换,从而提高查询的准确性,由于Web数据库分布在不同地点且具有自治性,不同数据库查询接口千差万别,集中体现在查询接口的形式定义及查询能力的不同上,因此要做到完全的等价转换似乎是不可能的,只能进行近似的转换,其中模式匹配问题贯穿查询处理的整个过程,对查询的准确性产生重要影响。
  1.3 查询结果的处理
  查询结果的处理是指将各个web数据库返回的结果抽取合并到一个统一的结构化的模式下,该部分包括结果的抽取、结果的注释和结果的合并子模块。
  结果的抽取是指将结果数据通过各种技术手段进行抽取并保存为可自动处理的XML文档或关系模式,目前,web数据抽取是web数据库集成系统中发展最为成熟的部分,已经有了很多数据抽取的工具,常用的抽取方式有:使用特定的抽取语言进行编程,如页面抽取语言Minerva与Web—OQL,这种方法准确率高,但效率较低;基于DOM树的工具XWRAP、RoadRunner、Lixto、MDR,这种方法能较好地实现自动或半自动抽取,应用广泛,但建立及匹配DOM树比较耗时,影响数据抽取的效率;基于样本学习来生成抽取规则的工具WIEN、STALKERH主要从大量训练样本中产生抽取规则,但需要花大量的时间进行样本训练;基于模式的工具NoDosEH和DEByE,强调与用户的交互和适应性。
  除此之外,数据的抽取还有很多其他的方法,评价不同抽取工具的性能可以从准确性、自动化程度、交互性以及适应性这几个角度进行,从而选择合适不同领域、不同要求的数据抽取工具和方法。
  结果的注释是指对抽取的结果进行语义注释,查询结果的合并是指对查询结果进行有效的合并并去掉重复的内容,存储在一个统一的模式下,目前一些研究方法把这两个功能融入了查询结果的抽取中,随着接口集成技术和数据抽取技术的日益成熟,查询结果模式的映射问题已经得到有效的解决,而查询结果重复记录的识别和去除工作仍有较大的提升空间。
  2 Web数据库集成技术的展望
  随着web数据库在web中的数量不断增加,对Web数据库进行大规模集成的研究变得非常重要,至今,人们在这一领域已经作了大量的研究,提出了一些web数据集成系统,但确切地说至今还没有一个真正可以作为实际应用的web数据库集成系统,有相当的研究工作仍然处于探索阶段,随着web技术的发展,新的方法不断地出现,语义web、本体构建、Web个性化服务等技术的兴起和发展,给web数据库集成技术带来了机遇和挑战,在体系结构方面,web数据库集成系统正在从分布式集成系统向基于Web Services的信息集成系统迈进,在WeServicesb的框架下,使用一组Web Services协议,构建信息集成系统,这种方法具有完好封装、松散耦合、规范协议和高度的集成能力等特性。
  因此,基于Web Services的集成方案是构建Web数据集成系统较为理想的体系结构,而在XML数据管理、移动无线网络、传感器网络等Web技术的发展带动下,Web数据库集成技术有很大的发展空间。参考文献:
  [1]刘伟、孟小峰、孟卫一,Deep Web数据集成研究综述[J].计算机学报,2007,30(9):1475-1489.
  [2J刘芳,查询自动生成器在Web数据库发现中的应用[J].信息技术,2009(06).
  [3]崔晓军、肖红宇、丁立新,基于距离的自适应web数据库记录匹配方法[J].武汉大学学报(理学版),2012,58(1):89-94.
  [4]孟小峰、周龙骧、王珊,数据库技术发展趋势[J].软件学报,2004,15(12):1822-1836.
  作者简介:
  李春林(1982-),女,大学本科,助教,现工作于百色学院数学与计算机信息工程系。
其他文献
作者用火箭免疫定量法对328名正常人和冠心病101例进行血清载脂蛋白B定量测定,测得正常值为92.28±17.77mg/dl,冠心病为118.71±20.95 mg/dl,冠心病组显著高于正常人(P
多年来,氯霉素、合霉索能引起骨髓造血机能全面抑制已被人们所重视、惊惕,但解热镇痛剂及其它某些药物亦可引起继发性再障问题却往往被人们所忽视。我院儿科于1986年3月连续
本文就近年国内对老年心血管病方面的研究作简略综述。一、发病情况;吴氏等分析200例65岁以上老年各类心脏病住院患者的情况,结果依发病次序为冠心病(72%),冠心合并肺原性心
最近数十年的流行病学研究表明,动脉粥样硬化及其主要表现冠状动脉疾病(CAD)的发病涉及众多因素.本文复习与CAD有关的主要流行学发现,以更新我们对动脉粥样硬化疾病的认识,
左束支阻滞远比右束支阻滞少见,有关报道不多。现将我院近20年来见到的50例完全性左束支阻滞(CLBBB)的心电图资料分析并讨论如下。资料和结果一、性别及年龄 50例CLBBB中,男
1、制定的背景rn随着上海城市发展空间从660平方公里拓展到市域6340平方公里,对本市城市交通的基础设施建设和服务供应水平提出了新的挑战.预测到2010年,本市公共交通日均客
健康之星评选活动是北京市健康促进工作的一项品牌活动,已于2009年和201 1年成功举办两届。通过两届的赛事,树立了一批百姓健康之星,在全市掀起了争做健康北京人的热潮。为了
现阶段社会的多元化发展,给企业党员的思想带来了一定的冲击,新形势下企业党员的教育工作尤为重要。企业党员的教育管理工作必须克服困难,针对教育中存在的问题,采取必要的措