基于MMTD的大数据质量评价方法研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:y2228158
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网、物联网、云计算技术的迅猛发展,数据规模呈现出了爆炸性增长的趋势,大数据成为了国内外研究热点之一。由于大数据中蕴含着巨大的价值,引起了政府和企业的高度关注。然而,只有在高质量数据的基础上,大数据才能发挥效能,只有在高质量的数据中才能获得有效、准确的信息。可是,在大数据环境下,数据类型繁多,且增长速度惊人以及数据量巨大无法满足数据使用的需求,因此,在建立用于数据分析和决策的高质量数据环境下,对大数据的数据质量进行有效的分析和评价十分重要。本文首先对中介数学以及中介真值程度度量方法(measuring of medium truth degree,MMTD)进行了介绍,在此基础上采用中介逻辑对大数据数据质量评价维度进行了定性分析和定量分析。主要工作如下:(1)研究了大数据环境下结构化数据、非结构化数据和半结构数据的规范性表示。根据大数据的3V特性,分析了大数据环境下数据有效性的评价维度,并给出大数据环境下,影响数据有效性的主要维度:数据完整性、数据正确性和数据相容性的定义,采用中介逻辑的方法对数据有效性的各个维度进行了定性分析,并建立了基于MMTD的大数据的数据有效性的测度模型。(2)研究了大数据中不同的数据类型的信息量度量,并分别给出几种典型的结构化、半结构化以及非结构化数据的信息量度量方法。(3)在Hadoop分布式系统上,设计并实现了一个基于SSM框架的大数据质量评价系统。系统采用接口编程,可以接入其他的功能模块,增强了系统的可扩展性,将整个系统的所有功能都分成单独的模块,修改时只需要修改相应的模块,增强了系统的维护性,并提供评价规则集,可以使用系统中定义的规则集或自定义规则,增强了系统的可用性。在该系统上验证了本文提出的评价模型的合理性和科学性。
其他文献
<正>当前,小学生的心理健康状况总体上说是良好的,但是,有的小学生也存在突出的心理问题。如,厌恶学习、自卑失望、情感脆弱、逆反报复心强等。小学生的心理健康问题
<正>人教版二年级上册第二单元"100以内的加法和减法(二)"包括"两位数加两位数","两位数减两位数"与"连加、连减和加减混合"3部分内容。它是在一年级下册第六单元"100以内的
~~
通过添加醇胺制备免清洗焊芯用助焊剂,研究了两种醇胺及其复配对助焊剂性能的影响。结果表明:添加适当的醇胺有利于降低助焊剂体系酸值,提高焊接性能,减少对线路板的腐蚀,提
面对巨大的一次能源消耗以及二氧化碳排放量的急剧上升,利用各种技术来储存从集中排放源分离得到的大量的二氧化碳成为控制大气中二氧化碳浓度的关键.介绍了几种二氧化碳的储
<正> “举要治繁”是1983年油画系部分同学访问吴作人先生时,吴先生书赠同学的,我见到它时已是装裱后挂在油画系办公室里了。当时,我感到的不是仅从书法得到的审美感受,不是
<正>后进生普遍存在一些共同特点,除了学习成绩比较差,学科作业、考试分数或评判值低于基本的合格线以外,在道德认知上还表现为学习、生活无目标;是非观念和法制意识弱,缺乏
<正>二十五味肺病丸是历代藏医治疗各种肺病的首选藏药。该药成方于公元8世纪,始载于藏医古典巨著《四部医典》中。该药以清肺热、消炎、止咳为主要功效,适用于慢性支气管炎
<正>相传,风筝是韩信发明的。有一个"四面楚歌"的成语故事,说的是楚霸王项羽和汉高祖刘邦在该下(今安徽省)打仗。刘邦手下的大将韩信为了瓦解楚军的军心,做了一种带着笛子的
期刊
<正> “人生七十龄不稀,力所能及志难移,山水人物写胸怀,浓墨重彩辟径蹊。”这是画家叶浅予所写《七十述怀》中的诗句,也可以说是他对自己的艺术实践的概括写照。我曾有机会