论文部分内容阅读
在大数据时代,数据成为有价值的公司资产。对企业数据资产的合理分析与挖掘,可以给企业的管理控制和科学决策提供合理依据,并减少和消除企业经济活动中的风险。公司或企业为了更好地做出决策,往往需要高准确的数据。但是由于各种原因,使数据仓库中存在着很多的相似重复数据。这些“脏数据”导致了错误的分析结果,进而影响决策。本文主要研究内容如下:(1)为了减少检测代价和提高运行效率,基于传统的窗口技术和分块技术,提出了一种相似重复记录检测算法。该算法利用关键字段将数据集进行排序和分块,并利用滑动窗口技术限制分块间比对。并基于此,设计了一种多排序字段改进算法,改进算法对不同字段的分块共同聚类,优先比较重复密度大的分块对,摒弃聚类较差的分块。改进算法减少了检测过程中的数据比较次数,并降低了字段好坏对算法速度的影响。理论和实验分析表明该算法能有效地提高相似重复记录检测的准确率和时间效率。(2)针对海量数据源的相似重复记录检测,采用Map Reduce模型对提出的算法再进行并行化改造。将数据集切割分片,并复制分片边缘数据,保证了检测数据集的连续性,使得算法具有高速并行化处理能力。理论和实验分析表明该算法高速有效的相似重复检测,并不会降低原有算法的查全率和查准率两个指标。(3)通过对相似重复检测过程的了解,以及数据常见的问题分析,设计并研发了数据唯一性质量检测工具,该工具实现了数据唯一性检测分析,帮助企业了解数据质量,辅助了业务系统应用能力成熟度评价的建立。对于挖掘应用系统存在的问题与不足,预测企业未来业务的运营状况和关注重点提供了有效的帮助。