基于规则的数据质量管理系统架构与关键问题研究

被引量 : 0次 | 上传用户:libra_15
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
最近一些年来,数据质量问题受到了越来越多的关注,很多企业和政府机构采用各种力所能及的管理和技术手段来提高数据质量从而提高其数据资产的价值。但学术界对数据质量的系统研究仍显薄弱,用于提高数据质量的软件系统也较少并且功能较为局限。本论文所设计的被称为RDQMS的基于规则的数据质量管理系统具有自动信息收集、根据规则自动诊断和进行自动填充和修复的能力。它能够被用于持续的发现实例层面的数据质量问题并及时进行修订,具有较好的实用性和智能性。论文对数据质量管理系统中涉及的数据质量规则库构建、数据质量诊断和数据修复三个关键技术问题进行了详细的分析。受遗传编程技术的启发,我们提出了一种采用树型结构来描述所有规则的新方法,并将其称为q-ET。所有规则采用xml方式存储,从而能够直接将q-ET不加改变的映射到xml文件中。同时,我们还提出了几个简单实用的新算法用于自动从样本数据集中发现规则,这几个算法非常适合从存储大量数据的关系数据库中发现函数依赖规则。在数据质量诊断部分,我们讨论了基于q-ET的数据质量诊断算法。在该算法中,我们先将一个q-ET表达式转换为其逆表达式;对于关系型数据源,我们将该逆表达式最终转换为能在关系型数据源中检索异常数据的SQL语句并执行以检索违例数据;对于xml类型的数据源,我们最终将该逆表达式转换为XQuery语句并执行以检索违例数据。对于异常和空的数据元素进行自动修复是一个较为复杂的问题。在这里,我们重点讨论了基于规则的数据自动修复和填充算法。在该算法中,我们直接运用q-ET表达的质量规则进行空值填充和异常数据修复。基于q-ET的强大表达力,算法具有很好的实用性。
其他文献
国家电力体制改革方案明确提出电力行业要打破垄断,引入竞争机制,实现优化资源配置,建立现代企业管理制度。如何在体制改革的大环境下找出适合于自己的发展之路,是电力企业面
自2003年诞生至今,手机电视以其突出的便携性、直观性和交互性优势吸引了大量受众。手机电视的受众队伍正在迅速壮大,而学界对手机电视受众的研究却寥若晨星。有鉴于此,本文
互联网技术的出现,使得通信和信息共享极为方便,网上银行就在这种背景下应运而生,它的出现给银行业带来一种地域无限,时间无限的经营方式,从而改变了银行业的传统经营模式。
随着计算机软件技术和企业信息化的不断发展,不同时期由不同厂商开发实施的信息系统越来越多,这些信息系统有着不同的技术背景(包括数据库管理系统、开发语言、平台技术等),
本文以初中区域地理案例教学为研究内容,在核心素养理念下对初中地理案例教学提出一些新思考。例如,为整合学科知识与学生的生活世界,自主开发乡土、时政案例,与教材案例组成
以昆明市软土地区某基坑工程为例,在工程中同时应用了装配式型钢组合内支撑施工工艺和锚索支护结构。根据2种支护结构的应用效果,从成本、工期及基坑变形控制3个方面进行对比
随着改革开放的不断深入与发展,我国加入世贸组织之后大进大出、快进快出的外贸新格局,以及技术贸易壁垒的层层设限,对作为实施WTO规则和履行入世承诺重要机构的检验检疫部门
为了调节冷却水的温度,使发动机处于最佳的工作状态,在多缸发动机的冷却系中气缸盖水套出口与散热器之间一般都装有节温器.
随着经济的快速发展、居民收入水平的不断提高和人口的持续增加,人们对住房的需求日益增长,房地产需求的高速增长带动了整个房地产业的快速发展,房地产在社会经济生活中的地
本文在充分借鉴国内外相关研究的基础上,结合我国当前从紧货币政策的宏观环境与股票市场发展现状,从理论上详细阐述了从紧货币政策对股票价格的影响机理,重点实证研究了上调