基于Java规则引擎的动态数据清洗研究与设计

被引量 : 0次 | 上传用户:dt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在运营管理过程中,企业积累了大量的、极为重要的电子数据。业务决策者在进行分析决策时对这些数据的依赖性日益增强,错误或冲突的数据很可能会导致错误的决策,从而给企业造成巨大的损失。因此在这些数据进入决策系统之前需要对其进行处理,以提高决策系统的可信度和可用性。为解决上述问题,业界提出了数据清洗的解决方案,即从大量原始数据中按一定规则(领域知识规则)检测出“脏数据”并按一定的规则(清洗动作规则)修复或丢弃之。传统的数据清洗工具存在以下不足:“脏数据”的检测和修复逻辑被嵌入到复用性差的硬编码中或依赖于灵活但低效的手工判断。当“脏数据”的定义发生变化时需要修改源代码并重新编译生成清洗软件,这在实际使用中是低效的。Java规则引擎的出现,为基于动态、可配置规则的数据清洗方式提供了可行的技术基础。本文介绍了规则引擎的基本原理,分析了Java规则引擎的工作机制及其核心算法——Rete算法,并对一种开源的Java规则引擎软件包——Drools的API使用方法及其规则配置文件的结构及含义做了系统地研究分析。本文着重阐述了一种基于Drools规则引擎的动态数据清洗系统的设计方案。给出了领域知识规则和清洗动作规则的巴科斯范式定义,为规则的持久化存储提供了基础。本文设计并实现了使用Drools规则引擎描述并执行清洗逻辑,能处理多种数据质量问题的动态数据清洗系统,弥补了现有数据清洗工具的不足。这种动态性主要体现在规则的持久化存储和Drools规则配置文件的动态更新。文中还详细介绍了系统的规则数据库设计、功能模块划分、架构和工作流程,给出了主要模块的部分代码,并对系统做出了实验性能分析。
其他文献
本文介绍了针对东北电网呼辽直流长距离送电易出现的低电压穿越,为防止电压低至264V (70%Ue)时发电厂的给煤机跳闸引起的停炉事故,对某电厂给煤机变频器进行改造,加装SGS柜,效果良
行政审批制度建设是涉及到我国政治体制和经济体制改革全局的一项重要工作,它从源头上预防和治理腐败、既适应了加入WTO的新形势、按国际规则办事的客观需要,同时也符合转变
网上居然出现了透明LCD显示器图片,到底是真是假?难道科幻片中透明的LCD已经上市?当然这个问题要由我们追出真相。 Actually appeared on the Internet transparent LCD dis
期刊
LCD
为优化经编单层立体提花鞋面织物的设计与生产,提出了一种鞋面样板设计及贾卡花型设计的方法,并研究其生产工艺。在鞋面设计方面:通过基线设计法获得鞋面各特征点的位置;归纳
甲基二氯化膦是合成有机磷化合物的重要原料,同时是合成除草剂草胺膦的重要中间体,其用途极为广泛。甲基二氯化膦的合成方法,主要分为液相法和气相法。液相法反应条件比较温
1945年“杜鲁门宣言”发表以后,沿海各国扩大领海范围和增加毗连区渔业专属权要求的呼声越来越高。由于在第一次和第二次联合国海洋法会议上没有制定出国际认可的领海宽度标
解决人对能源需求无限性与能源有限性的矛盾是节能的经济学涵义。随着全球化进程不断加深,能源作为国民经济的支柱作用不断强化。我国改革开放三十年来经济飞速增长,工业化水
毛泽东和邓小平作为党和国家不同历史时期的领导人,十分重视新闻宣传工作。对于新闻传播,他们不仅做出理论论述,制定新闻政策,而且还身体力行地指导和参与了新闻实践。这些理
绿当量核算方法为评价土地利用生态效益提供了统一性标准,实现了不同用地之间生态功能的定量分析和模型计算,可为土地利用优化提供生态化解决方案。运用生态系统理论及生态绿
领导不是天生的,我们每个人来到世上都是一种奇迹,都有成为卓越领导者的可能和潜力。 我现在身兼古井酒店集团、东方瑞景投资公司和亳州市城市建设投资公司董事长,从某种意义