论文部分内容阅读
信息技术的迅猛发展和Internet 技术的广泛应用,给人们的生活、工作和学习带来了极大的方便。但随着人们对信息综合利用需求的进一步提高,Internet的局限性也凸现出来,因为计算机互连网络实现的是一种硬件的连通,所连接起来的信息大部分是异构的,形成了一个个信息孤岛,很难达到互联互通,真正实现数据的共享。信息的不一致造成有限的信息共享、缺少数据交换是制约实现数据综合利用的主要瓶颈。因此,如何找出并消除异构数据库中数据的冲突、异常,进行数据库集成,是实现综合信息应用必须解决的问题。数据库集成技术可以有效地检测数据异常、尽早地调整数据、消除数据的不完整和不一致,从而有助于提高信息综合利用的质量。异构数据库集成的关键问题是找出异构数据库间相同的语义对象,即语义集成,具体到关系数据库中,就是要找出异构数据库间相同的属性和实体(记录),即属性匹配和实体匹配问题。本篇论文主要在分析研究了现有异构数据库语义集成技术特点的基础上,针对目前方法的不足,考虑到神经网络具有较强的自学习能力和推广能力,比较适合处理语义集成这类不确定性问题,将神经网络理论应用到异构数据库语义集成中的属性匹配和实体匹配领域。同时,在解决实体匹配问题时,针对属性权重难以准确计算的问题,我们分别考虑了属性的信息熵和互信息来估算属性的权重。从提高识别相同语义对象的查准率和查全率两个重要指标出发,提出了新的属性匹配和实体匹配算法,并在具体应用环境中的数据库上进行了实验,取得了理想的效果。本论文主要研究工作如下: ①全面地综述了目前异构数据库集成所涉及的主要问题,详细地介绍了异构数据库语义集成的任务、语义异构的类型和解决语义异构问题主要采用的方法,并对目前方法的特点和不足之处进行了研究,分析了将神经网络理论、信息熵和互信息理论引入异构数据库语义集成领域中解决属性匹配和实体匹配问题的可行性。②分析了目前文献中基于BP 神经网络的属性匹配方法的不足,指出不同的输入在神经网络上可能对应相同的输出是影响神经网络结果准确性的主要因素之一,并进行了理论上的证明和具体实验环境的验证。为了解决该问题,在论文中提出了用相同的训练数据在不同的初始权值和阈值的情形下多次训练神经网络,从而构建不同于一般多级分类器方法的多个分类器的思想,可以实现对干扰数据的有效过滤。该思想在本文的第三章和第五章得到了很好的体现。