论文部分内容阅读
近年来,计算机技术的不断发展和应用的广泛普及加快了人类社会信息化的进程。数据集成技术是解决目前普遍存在的“信息孤岛”问题的重要方法。数据集成系统的优劣评判标准是看该系统是否能使用户以最小的代价,高效率的使用这些数据。系统是否能够提供一致的数据是实现此标准的基础。所以,针对数据集成中的数据不一致性问题,本文基于以下两个方面展开了研究:1)通过对数据集成系统返回查询结果中的不一致数据进行分析、解决,从而得到一致的查询结果。基于这种方式,本文基于数据源质量开展了相关研究,提出了解决方法,并给出了普适计算环境下的解决策略和算法。同时设计实现了一个原型系统。2)由数据集成系统提供不一致的数据集,并由专家对所有不一致数据进行集中评估。基于这种方式,本文重点研究了专家参与解决数据不一致性问题时如何取得最好的系统收益。具体而言,论文的主要研究工作和创新性包括以下几个方面:1)针对数据集成中数据不一致性问题提出了基于数据源质量的解决方法。本文定义了数据源质量指标,设计了数据集成的数据模型。基于该数据模型,对数据集成中的数据不一致性问题给出了明确的定义。为了能够处理定性的指标值,使用模糊多属性决策方法来解决查询结果中的不一致数据。并基于实验进行验证,得到了良好的实验结果。2)由于普适计算环境具有动态性的特点,普适环境中数据源质量可能经常发生改变并且获得实际的数据源质量是非常困难的。本文针对普适环境的特点,提出了基于模糊多属性群决策的方法来解决数据集成中的数据不一致性问题。本文使用数据质量指标和消费质量指标来描述数据源的质量。在数据质量指标中,定义了一个数据源属性――“历史可信度”。“历史可信度”表示在数据不一致性问题的处理过程中,数据源提供数据的整体正确程度,并且可以基于用户反馈修改该属性的值。本文提出的解决方案首先基于数据源的消费质量指标,使用效用函数对数据进行初步筛选。然后使用了数据质量指标和模糊多属性群决策方法来选择最合适的数据源提供的数据作为查询结果中不一致数据的解决结果,并将一致的查询结果提供给用户。根据用户反馈,调整相关数据源的历史可信度指标值。实验结果验证了本文提出方法的有效性。3)领域专家参与解决数据集成系统中的数据不一致性问题时,针对如何让专家的评估更有效率,使数据集成系统取得最大的收益,本文提出了基于完美信息价值的解决方法。本文基于查询结果的质量来评估系统效用,定义了系统效用公式,并进一步得到了完美信息价值的计算公式。根据计算得出的完美信息价值对所有待评估的不一致数据集进行排序,使专家的评估可以最大化系统收益。并基于实验验证方法的有效性,得到了良好的实验结果。4)基于本文提出的解决数据不一致性问题的方案,设计实现了上海世博数据集成子系统的原型系统。该系统采用了基于可信度的数据集成技术,以服务总线和XML为基础,以基于模式的集成为核心,基于Web服务统一封装异构数据源。在该子系统中,用户可以根据需要选择是否解决查询结果中的数据不一致性问题,这增强了系统的灵活性。世博数据集成子系统采用近似面向对象的数据模式管理方法对系统内数据进行描述和集成,并基于效用函数和模糊多属性群决策的方法对不一致数据进行解决。