大数据应用中数据唯一性质量检测关键技术研究

来源 :西安工程大学 | 被引量 : 0次 | 上传用户：liusheng123321

【摘要】

：

在大数据时代,数据成为有价值的公司资产。对企业数据资产的合理分析与挖掘,可以给企业的管理控制和科学决策提供合理依据,并减少和消除企业经济活动中的风险。公司或企业为

【作者】

：

胡康

【出处】

：

西安工程大学

【发表日期】

：

2004年期

【关键词】

：

相似重复记录检测数据质量应用能力成熟度数据唯一性

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在大数据时代,数据成为有价值的公司资产。对企业数据资产的合理分析与挖掘,可以给企业的管理控制和科学决策提供合理依据,并减少和消除企业经济活动中的风险。公司或企业为了更好地做出决策,往往需要高准确的数据。但是由于各种原因,使数据仓库中存在着很多的相似重复数据。这些“脏数据”导致了错误的分析结果,进而影响决策。本文主要研究内容如下:(1)为了减少检测代价和提高运行效率,基于传统的窗口技术和分块技术,提出了一种相似重复记录检测算法。该算法利用关键字段将数据集进行排序和分块,并利用滑动窗口技术限制分块间比对。并基于此,设计了一种多排序字段改进算法,改进算法对不同字段的分块共同聚类,优先比较重复密度大的分块对,摒弃聚类较差的分块。改进算法减少了检测过程中的数据比较次数,并降低了字段好坏对算法速度的影响。理论和实验分析表明该算法能有效地提高相似重复记录检测的准确率和时间效率。(2)针对海量数据源的相似重复记录检测,采用Map Reduce模型对提出的算法再进行并行化改造。将数据集切割分片,并复制分片边缘数据,保证了检测数据集的连续性,使得算法具有高速并行化处理能力。理论和实验分析表明该算法高速有效的相似重复检测,并不会降低原有算法的查全率和查准率两个指标。(3)通过对相似重复检测过程的了解,以及数据常见的问题分析,设计并研发了数据唯一性质量检测工具,该工具实现了数据唯一性检测分析,帮助企业了解数据质量,辅助了业务系统应用能力成熟度评价的建立。对于挖掘应用系统存在的问题与不足,预测企业未来业务的运营状况和关注重点提供了有效的帮助。

其他文献

二项式定理解题中的思维意识

在高考试卷中,关于二项式定理的题目几乎年年都有,经常以选择题、填空题的形式出现.这类题目难度不大,相对独立,有着解法灵活的特点.因此,把握必要的解题思维意识,往往能避免

期刊

二项式定理展开式思维意识

财物盘点制度在中式会计中的运用及发展

<正>财物(存货)盘点制度,是财务管理监督的一项重要内容和制度,企业会计准则对存货监盘进行了详细的规定。其实财物盘点制度在中式会计中有着悠久的历史,并随着经济社会的发

期刊

内藏库

秦玉龙辨治闭经验案1则

期刊

闭经脾胃不和温胆汤中医疗法医案秦玉龙

德育的一种有效途径:社会生活美德现象课程化

2010年8月,笔者在北京参加一个中外名校长论坛,其中一位香港校长谈到,她要求自己学校的学生在三年高中生涯中必须完成72小时的义工,否则拿不到这所著名高中的毕业文凭,她认为

期刊

理性智慧情感体验平民意识美德袋德育方式德育生活化

甲基泼尼松龙治疗急性脊髓炎的临床观察

目的探讨甲基泼尼松龙治疗急性脊髓炎的临床效果。方法选取我院2015年8月—2016年2月诊治的64例急性脊髓炎患者作为观察对象,以随机数字表法将其分成常规组和观察组各32例,常

期刊

急性脊髓炎甲基泼尼松龙地塞米松疗效对比

目标成本法在设备制造业中的应用初探

随着市场竞争日趋激烈,设备制造业企业必须加强成本管理,并结合企业自身特点建立行之有效的成本管控方法,当前目标成本法已经在设备制造业企业的成本管理中得到普遍的应用,但

期刊

目标成本法设备制造业成本管理

品牌应该贯穿健康生活的每一个环节

<正>患者的情感利益和生活质量的提升,是数字时代下医疗健康品牌营销的核心驱动力。网络已经成为公众获取健康信息的主要渠道,在人们感觉到身体不适时,超过八成的人会选择网

期刊

数字时代医疗健康数字平台目标人群品牌体验内容营销品牌营销医药健康核心驱动力感冒药感冒灵

经颅直流电刺激联合运动再学习方案对卒中患者上肢运动功能的改善作用

目的探讨经颅直流电刺激联合运动再学习方案对卒中后上肢运动功能恢复的作用。方法前瞻性纳入2015年9月至2016年6月在首都医科大学宣武医院接受康复治疗的初发卒中患者40例,

期刊

卒中上肢康复经颅直流电刺激运动再学习方案

劈裂注浆加固理论研究

劈裂注浆加固理论是以巷道围岩应力分布规律为基础，对劈裂注浆压力的变化规律、扩散规律进行了详细的理论分析，为注浆过程的实施提供了理论依据。

期刊

劈裂注浆加固研究

例谈二项展开式指定项系数的求解

2015年高考上海卷理科第11题：在（1＋z＋1/（X（2015））（10）的展开式中,x^2项的系数为____（结果用数值表示）.不少高三学生对指定项系数求解的学习,只停留在熟练地记忆公式和机械地套用公式的层

期刊

二项展开式高考试卷常数项二项式定理

大数据应用中数据唯一性质量检测关键技术研究

与本文相关的学术论文