构件化数据清洗框架的研究与应用

来源 :东北大学 | 被引量 : 0次 | 上传用户:wufeng727
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大规模、跨领域数据仓库的出现,使数据仓库中的数据量日益增多,数据模式日趋复杂,清洗过程设计更加繁琐。这些变化使数据清洗软件的开发出现了很多新的需求,如动态构建、频繁的修改以及更多的用户交互等。因此,如何设计能够可重用的数据清洗过程以满足数据清洗软件新的需求,成为数据清洗软件设计和开发人员的新挑战。   为解决上述问题,本文深入地研究了数据清洗的逻辑模型以及构件化物理实现,完成了如下两部分工作:   一是提出数据清洗过流程模型DCPM(Data Cleansing Process Model),并证明基于该模型使用工作流网建模技术对数据清洗过程进行建模的可行性。这使得设计数据清洗过程可以遵照统一的模型,并使用成熟的建模技术进行建模。该模型描述了数据清洗流程中内部各个元素,元素之间的关系和元素的属性。通过使用统一的模型对数据清洗流程进行建模,显著地提高了清洗流程的可复用性。   二是分析了目前开发数据清洗软件所出现的新需求和已有的开发手段的不足,提出并实现了基于构件的数据清洗框架C+ADC(Component——extended Agile Data Cleaning),包括运行时平台和框架服务构件集。基于该框架,能够轻松、灵活地构建基于扩展构件的数据清洗应用,显著地降低开发成本和周期。定义了集成与该框架的构件模型和数据清洗流程业务空间向构件空间映射策略,以更好地实现数据清洗应用。   实际的开发案例证明:使用DCPM模型建模数据清洗流程并基于C+ADC框架进行数据清洗应用开发,能够快速地构建基于构件的灵活的、可扩展的数据清洗应用软件。
其他文献
多媒体信息已经成为了网络重要的传输内容,而流媒体技术凭借其自身的优势在网络上得到了迅速发展。目前主流的流媒体系统主要有两大类:基于P2P技术的和基于CDN技术的。P2P技
本文研究了时态XML的数据模型,以及基于此数据模型创建了索引模型,通过创建索引优化了基于时间的查询。本文所做的主要工作和贡献包括: 论文提出了一个时态XML数据模型,该模型
远距离射频识别技术是一项新兴的非接触的自动识别技术,与其它自动识别技术相比,该技术具有识别距离远、速度快以及抗干扰能力强等优点。本文是根据某军事区应用环境需要,为
随着社会经济蓬勃的发展,社会经济形态和社会结构形态正发生着巨大的变化,即从工业经济和工业社会向知识经济和知识社会的转变。21世纪是知识经济时代,企业管理也正在由对实
互联网络的广泛应用带来网络安全问题日益受到大家的重视,相关的防御技术成为该领域研究的热点。由于分布式系统拒绝服务攻击(DDoS)者利用目前IP协议的不足、源地址欺骗和变
笔式用户界面作为后WIMP界面的一个主要形态成为了研究的热点,它基于纸笔的隐喻,提供给人们自然高效的交互方式。现实生活中人们大量地使用纸笔方式自然地表达和交流各种信息
分组密码设计技术能够为数据传输提供保密功能良好的加密算法,最具代表性的就是被选作AES的Rijndael算法。密码分析技术能对分组密码的安全性进行理论和实践的论证,代数攻击
随着信息处理技术的不断发展,各行各业都已经建立起了很多的计算机信息系统,积累了大量的历史数据,这些历史数据非常重要的。为了使数据能够有效地支持企业的日常运作和决策,
随着网络规模的不断扩大和网络应用的不断普及,当前的网络协议IPv4暴露出越来越多的在地址空间、网络安全等方面的缺点,威胁网络安全的方式和攻击网络的手段也越来越复杂,安
世界各国的高速公路运行管理经验表明,在所有不利气候条件中,大雾对高速公路运行所产生的危害最大。目前,在世界范围内降低或预防因大雾引发高速公路交通事故的方法主要有关