大数据应用中数据唯一性质量检测关键技术研究

来源 :西安工程大学 | 被引量 : 0次 | 上传用户:liusheng123321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,数据成为有价值的公司资产。对企业数据资产的合理分析与挖掘,可以给企业的管理控制和科学决策提供合理依据,并减少和消除企业经济活动中的风险。公司或企业为了更好地做出决策,往往需要高准确的数据。但是由于各种原因,使数据仓库中存在着很多的相似重复数据。这些“脏数据”导致了错误的分析结果,进而影响决策。本文主要研究内容如下:(1)为了减少检测代价和提高运行效率,基于传统的窗口技术和分块技术,提出了一种相似重复记录检测算法。该算法利用关键字段将数据集进行排序和分块,并利用滑动窗口技术限制分块间比对。并基于此,设计了一种多排序字段改进算法,改进算法对不同字段的分块共同聚类,优先比较重复密度大的分块对,摒弃聚类较差的分块。改进算法减少了检测过程中的数据比较次数,并降低了字段好坏对算法速度的影响。理论和实验分析表明该算法能有效地提高相似重复记录检测的准确率和时间效率。(2)针对海量数据源的相似重复记录检测,采用Map Reduce模型对提出的算法再进行并行化改造。将数据集切割分片,并复制分片边缘数据,保证了检测数据集的连续性,使得算法具有高速并行化处理能力。理论和实验分析表明该算法高速有效的相似重复检测,并不会降低原有算法的查全率和查准率两个指标。(3)通过对相似重复检测过程的了解,以及数据常见的问题分析,设计并研发了数据唯一性质量检测工具,该工具实现了数据唯一性检测分析,帮助企业了解数据质量,辅助了业务系统应用能力成熟度评价的建立。对于挖掘应用系统存在的问题与不足,预测企业未来业务的运营状况和关注重点提供了有效的帮助。
其他文献
在高考试卷中,关于二项式定理的题目几乎年年都有,经常以选择题、填空题的形式出现.这类题目难度不大,相对独立,有着解法灵活的特点.因此,把握必要的解题思维意识,往往能避免
<正>财物(存货)盘点制度,是财务管理监督的一项重要内容和制度,企业会计准则对存货监盘进行了详细的规定。其实财物盘点制度在中式会计中有着悠久的历史,并随着经济社会的发
期刊
2010年8月,笔者在北京参加一个中外名校长论坛,其中一位香港校长谈到,她要求自己学校的学生在三年高中生涯中必须完成72小时的义工,否则拿不到这所著名高中的毕业文凭,她认为
目的探讨甲基泼尼松龙治疗急性脊髓炎的临床效果。方法选取我院2015年8月—2016年2月诊治的64例急性脊髓炎患者作为观察对象,以随机数字表法将其分成常规组和观察组各32例,常
随着市场竞争日趋激烈,设备制造业企业必须加强成本管理,并结合企业自身特点建立行之有效的成本管控方法,当前目标成本法已经在设备制造业企业的成本管理中得到普遍的应用,但
<正>患者的情感利益和生活质量的提升,是数字时代下医疗健康品牌营销的核心驱动力。网络已经成为公众获取健康信息的主要渠道,在人们感觉到身体不适时,超过八成的人会选择网
目的探讨经颅直流电刺激联合运动再学习方案对卒中后上肢运动功能恢复的作用。方法前瞻性纳入2015年9月至2016年6月在首都医科大学宣武医院接受康复治疗的初发卒中患者40例,
劈裂注浆加固理论是以巷道围岩应力分布规律为基础,对劈裂注浆压力的变化规律、扩散规律进行了详细的理论分析,为注浆过程的实施提供了理论依据。
2015年高考上海卷理科第11题:在(1+z+1/(X(2015))(10)的展开式中,x^2项的系数为____(结果用数值表示).不少高三学生对指定项系数求解的学习,只停留在熟练地记忆公式和机械地套用公式的层