论文部分内容阅读
近年来,随着互联网、物联网、云计算技术的迅猛发展,数据规模呈现出了爆炸性增长的趋势,大数据成为了国内外研究热点之一。由于大数据中蕴含着巨大的价值,引起了政府和企业的高度关注。然而,只有在高质量数据的基础上,大数据才能发挥效能,只有在高质量的数据中才能获得有效、准确的信息。可是,在大数据环境下,数据类型繁多,且增长速度惊人以及数据量巨大无法满足数据使用的需求,因此,在建立用于数据分析和决策的高质量数据环境下,对大数据的数据质量进行有效的分析和评价十分重要。本文首先对中介数学以及中介真值程度度量方法(measuring of medium truth degree,MMTD)进行了介绍,在此基础上采用中介逻辑对大数据数据质量评价维度进行了定性分析和定量分析。主要工作如下:(1)研究了大数据环境下结构化数据、非结构化数据和半结构数据的规范性表示。根据大数据的3V特性,分析了大数据环境下数据有效性的评价维度,并给出大数据环境下,影响数据有效性的主要维度:数据完整性、数据正确性和数据相容性的定义,采用中介逻辑的方法对数据有效性的各个维度进行了定性分析,并建立了基于MMTD的大数据的数据有效性的测度模型。(2)研究了大数据中不同的数据类型的信息量度量,并分别给出几种典型的结构化、半结构化以及非结构化数据的信息量度量方法。(3)在Hadoop分布式系统上,设计并实现了一个基于SSM框架的大数据质量评价系统。系统采用接口编程,可以接入其他的功能模块,增强了系统的可扩展性,将整个系统的所有功能都分成单独的模块,修改时只需要修改相应的模块,增强了系统的维护性,并提供评价规则集,可以使用系统中定义的规则集或自定义规则,增强了系统的可用性。在该系统上验证了本文提出的评价模型的合理性和科学性。