数据清洗方法研究及工具设计

被引量 : 0次 | 上传用户:XYYWLC
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术发展和企业信息化建设的进行,企业自身积累了大量的业务数据,这些数据对于企业非常珍贵,是企业了解自身经营状况及进行正确决策的基础。由于用户录入错误、系统集成及企业环境变化等因素,都会影响到数据质量。为此研究企业信息系统中数据清洗问题具有很强的理论性和实用性。论文通过对企业信息系统中存在的数据质量问题及数据清洗方法的分析与研究,详细论述了数据质量的概念、问题种类及影响数据质量的因素,并提出了自己对数据质量的定义及数据清洗的一般过程。在数据清洗方面,分析了当前对数据清洗方法的研究。提出了基于业务逻辑的数据清洗方法;在基本临近排序算法的基础上提出了改进的相似重复记录匹配算法,对其中的关键步骤进行了改进,提高了相似重复记录的匹配度和检测效率。在通用数据清理工具的设计开发上,提出了一种通用可扩展的数据清洗工具平台,文中详细论述了该平台的设计、开发和实现过程。通用可扩展数据清洗工具平台具有开放的算法库和规则库,并可以进行扩展。清洗工具平台的扩展管理模块,可以配置管理定制化的清洗方法,并且无缝的加载扩展模块到清洗工具平台中。通过在规则库中定义清洗规则以及从算法库中选择合适的清洗算法,可使该软件平台适用于不同的数据源,从而使其具有较强的通用性和适应性。本文所设计开发的通用可扩展数据清洗工具平台已经成功的应用到某世界五百强电子消费品生产企业的集成客户管理系统中,有效的提高了企业的客户数据质量。
其他文献
衡水湖国家级自然保护区是集调节气候、科学研究、生态旅游、工农业用水为一体的湿地系统。通过衡水湖流域污染调查,分析衡水湖水体营养盐的主要来源,从营养物质、水量交换和
地面沉降是天津市当前最为主要的环境地质问题之一,影响着各类城市基础设施的建设和维护,不利于城市的快速发展。天津地面沉降研究结果业已表明地下水超采是导致沉降的主要原
伴随着社会进步而来的需求多样性以及技术创新速度的提高,结合经济的全球化,导致产业间的竞争与同行业企业间的竞争进入超竞争状态,使国际创业企业的外部环境更具动态特征和
随着国际经济的深入发展,跨国公司频频出现了弱化社会责任,并有加剧的趋势。但由于东道国对其的管制存在缺陷,加之国际社会对跨国公司社会责任管制问题还处于一个不断摸索的
自2014年以来新疆的水泥行业面临着严重的产能过剩、水泥价格持续走低、企业流动资金不足、单位产品能耗过大等问题。基于"丝绸之路经济带"这一战略,大力建设基础设施为新疆
我国耕地数量在逐年减少 ,耕地质量在不断恶化 ,加强耕地保护十分必要。耕地占用税的征收是利用税收的经济杠杆作用来促使单位和个人尽量少占耕地、节约耕地的一项重要措施。
目的探讨围手术期整体护理在高龄急性阑尾炎患者中的应用体会。方法选择2010年4月-2012年4月收治的高龄急性阑尾炎采用手术治疗的患者,按观察组和对照组各40例划分,对照组行
应用优化方法对无人机回收气囊的设计作了改进 ,建立了气囊的缓冲特性优化计算模型 ,并根据气囊初步落震的实验结果对气囊参数进行了优化。优化计算采用了复合形法。应用该优
设计了一种新型大推力直线压电作动器,采用螺旋箝位的方式实现对压电叠堆微小位移的累积输出,实现了大推力和长行程。对该种作动器的驱动机理和作动器设计过程中的关键技术问
针对采用各向同性材料为基板的仿生鱼尾刚度大、变形小的情况,研究基板材料弹性模量对于柔性复合型仿生鱼尾振动行为的影响。首先,通过使用粗压电纤维复合材料(macro fiber c