论文部分内容阅读
【摘 要】如今,大数据是一种不断增长的技术。大数据有很多用途;人工智能、医疗保健、商业等等。因此,有必要对所获取的大量数据进行预处理与分析,以确保使用和生成的数据具有更高的质量。如果想拥有较高质量的大数据,那么它的获取规则、管理架构等条件必须得到满足。本文从数据本身、数据管理、数据处理和数据用户的角度出发,提出了需要测量的主要大数据质量因素。这项研究强调了质量因素,这些因素在以后可能会用于创建不同的大数据质量模型。
【关键词】大数据、数据质量、回归规模
1 引言
大数据概念已经使用了这么多年,研究人员在1944年以“信息爆炸”的名义开始注意到它。在信息技术领域,“大数据”一词最早是在1980年由Charles Telly使用的。Tim O'Reilly在2005年定义了我们今天所知道的术语“大数据”。这一术语将于2013年出现在牛津词典中。此后,许多研究者从定义、应用、技术、工具和质量等方面对“大数据”进行了讨论。而现在的大数据是一个术语,用来描述一个企业或系统日常的大量数据,它可以是结构化的、半结构化的或非结构化的。
软件质量是软件开发的一个基本过程。它是“软件产品满足既定需求的程度;然而,质量取决于这些既定需求准确表示涉众需求、愿望和期望的程度”。数据,作为任何软件产品的四大支柱之一,它必须尽可能高质量,以确保它不会在系统中产生任何故障或失效。本文主要对大数据的质量因素和问题进行了讨论,以帮助大数据生产者,分析师和用户衡量他们的大数据质量。
2 大数据基本特征
如今,大数据涉及许多领域,如社交媒体、人工智能、机器学习、医疗保健、电力和核系统等等。2001年,Doug Laney[8]提出了大数据的三大主要特征,后来被称为“大数据的三个V”:
1、容量(Volume):大数据,顾名思义,是需要处理和存储的海量数据;
2、速度(Velocity):是通过系统移动数据的速度。面对如此庞大的数据量,移动数据是一个巨大的挑战;
3、多样性(Variety):大数据是不同类型数据(图像、视频、音频、文本等)的巨大集合。此外,收集的数据的格式和呈现方式也不同。
大数据的特点和应用提出了大数据质量问题。任何将要使用它的应用程序都必须确保数据具有高质量标准,这是生成良好质量系统的强制性要求。主要考虑大数据的质量因素与传统数据集相同。此外,一些额外的质量因素,处理大量的数据,如数据管理和修复。
在以往的研究中,大多数研究者都讨论了传统数据的质量因素。然而,传统数据与大数据有许多相似的质量因素,它们在质量应用和度量上存在差异。
在文献[2-3]中,研究人员描述了网站数據的六个质量评估标准:权威性、准确性、客观性、通用性、覆盖率/预期受众和交互/交易特征。另一位研究人员讨论了网络数据质量,并与用户进行测试,以确定每种数据的重要性级别。另一位研究人员提出了六个质量指标,包括货币、可用性、信息噪音比、权威性、流行性和凝聚力,以进行调查。文献[4]中引入了一个新的质量模型,称为IQIP(Identify,Quantify,Implement,and Perfect)。他们总结了最常见的不同的数据质量/信息质量框架。该模型作为一种管理互联网爬虫搜索引擎质量相关算法的选择和实现的方法。
3 大数据质量挑战
大数据的准确性、完整性、冗余性、可读性、可访问性、一致性、信任度是主要的数据和大数据质量因素。每个因素都与一个或多个必须满足的质量标准相关联,以满足质量因素。
此外,对于大数据开发人员来说,还有一些特性需要讨论,这些特性是:准确性;数据源的多样性和处理的复杂性是评估大数据质量的一个挑战。可变性;大数据类型和格式的变化可能导致质量的巨大差异。可能需要额外的工作和资源来识别、处理和过滤低质量的数据,以减少工作量和成本增加数据的有用性。价值;大数据在处理和过滤大数据时所传递的价值是什么?这个问题是大数据分析师面临的主要挑战。大数据质量的衡量不仅仅是数据质量,数据质量管理(DQM)也是一个必须考虑的质量挑战,DQM在大数据质量度量中起着关键的作用,大数据生命周期的每个阶段都必须根据一些质量规则来衡量。
大数据的生存周期图如图1所示,而DQM有五个主要步骤,可总结如下:
1)人员:项目经理、组织变革经理、业务/数据分析师是任何数据质量管理的关键角色;
2)数据分析:数据审查、比较、报告和统计分析,以检查数据的准确性或找到使用可用数据的最佳方法;
3)定义数据质量:在此阶段创建并定义数据的质量规则;
4)数据报告:删除和报告所有泄露数据;
5)数据修复:在这个阶段,修复和更改数据的最佳方法。
大数据生命周期也引入了质量因素和需要衡量的问题。因此,大数据的质量因素包括关注数据本身以及大数据管理和用户需求的因素。
外国学者曾做过一项关于大数据的品质因素研究,在这项研究中,这些品质因素被分为四类,取决于他们的视角,这些类别是:
数据透视图:关注数据质量因素,这些与通常的数据质量因素非常相似;
管理视角:如何从管理的角度处理数据;
处理和服务视角:如何使用和分析数据;
最后是用户视角:如何将这些大数据交付给目标用户并使其可视化。
一个国外的研究小组曾经也进行了四个独立的、特定领域的大数据应用案例研究。这些案例研究是对大数据收集中遇到的数据质量问题是否与传统规模的数据收集中遇到的数据质量问题在原因、表现形式或检测方面有本质不同的问题进行的初步调查。这项研究从多个层面探讨了影响大数据质量的几个因素,包括收集、处理和存储。这项研究的主要发现强调了影响大数据的主要因素在于在保持数据完整性的同时处理大数据的局限性和复杂性。这些关注点比数据的来源、处理以及用于准备、操作和存储数据的工具更重要。数据质量对于所有的数据分析问题都非常重要。从研究结果来看,“关于大数据的真相”是在大数据分析项目中没有根本上新的“数据质量”问题。不过,一些“数据质量”问题表现出规模回报效应,在大数据分析中或多或少变得明显。大数据质量因不同类型的大数据和不同的大数据技术而异。
4 结论
在本文中,主要对大数据质量因素进行了讨论。得出大数据的质量不仅与数据本身有关,而且还受到数据管理、数据处理和服务以及使用这些数据进行决策的用户的影响。因为数据的重要性不仅仅在于数据本身,但事实上,如何使用、保护、呈现和使用数据才是正确的方法。在未来,将使用所述大数据质量因素来产生不同的大数据质量模型,这些模型将用于以不同的术语衡量大数据应用的大数据质量。
参考文献:
[1]亓林芳.谈全面提高统计数据质量[J].合作经济与科技,2021(07):132-133.
[2]J. E. Alexander and M. A. Tate,Web Wisdom;How to Evaluate and Create Information Quality on the Webb:L. Erlbaum Associates Inc.,1999.
[3]L. Cai and Y. Zhu,The Challenges of Data Quality and Data Quality Assessment in the Big Data Era vol. 14,2015.
作者简介:
卫鑫,2001年生,汉,研究方向:大数据质量分析
(作者单位:西南科技大学城市学院)
【关键词】大数据、数据质量、回归规模
1 引言
大数据概念已经使用了这么多年,研究人员在1944年以“信息爆炸”的名义开始注意到它。在信息技术领域,“大数据”一词最早是在1980年由Charles Telly使用的。Tim O'Reilly在2005年定义了我们今天所知道的术语“大数据”。这一术语将于2013年出现在牛津词典中。此后,许多研究者从定义、应用、技术、工具和质量等方面对“大数据”进行了讨论。而现在的大数据是一个术语,用来描述一个企业或系统日常的大量数据,它可以是结构化的、半结构化的或非结构化的。
软件质量是软件开发的一个基本过程。它是“软件产品满足既定需求的程度;然而,质量取决于这些既定需求准确表示涉众需求、愿望和期望的程度”。数据,作为任何软件产品的四大支柱之一,它必须尽可能高质量,以确保它不会在系统中产生任何故障或失效。本文主要对大数据的质量因素和问题进行了讨论,以帮助大数据生产者,分析师和用户衡量他们的大数据质量。
2 大数据基本特征
如今,大数据涉及许多领域,如社交媒体、人工智能、机器学习、医疗保健、电力和核系统等等。2001年,Doug Laney[8]提出了大数据的三大主要特征,后来被称为“大数据的三个V”:
1、容量(Volume):大数据,顾名思义,是需要处理和存储的海量数据;
2、速度(Velocity):是通过系统移动数据的速度。面对如此庞大的数据量,移动数据是一个巨大的挑战;
3、多样性(Variety):大数据是不同类型数据(图像、视频、音频、文本等)的巨大集合。此外,收集的数据的格式和呈现方式也不同。
大数据的特点和应用提出了大数据质量问题。任何将要使用它的应用程序都必须确保数据具有高质量标准,这是生成良好质量系统的强制性要求。主要考虑大数据的质量因素与传统数据集相同。此外,一些额外的质量因素,处理大量的数据,如数据管理和修复。
在以往的研究中,大多数研究者都讨论了传统数据的质量因素。然而,传统数据与大数据有许多相似的质量因素,它们在质量应用和度量上存在差异。
在文献[2-3]中,研究人员描述了网站数據的六个质量评估标准:权威性、准确性、客观性、通用性、覆盖率/预期受众和交互/交易特征。另一位研究人员讨论了网络数据质量,并与用户进行测试,以确定每种数据的重要性级别。另一位研究人员提出了六个质量指标,包括货币、可用性、信息噪音比、权威性、流行性和凝聚力,以进行调查。文献[4]中引入了一个新的质量模型,称为IQIP(Identify,Quantify,Implement,and Perfect)。他们总结了最常见的不同的数据质量/信息质量框架。该模型作为一种管理互联网爬虫搜索引擎质量相关算法的选择和实现的方法。
3 大数据质量挑战
大数据的准确性、完整性、冗余性、可读性、可访问性、一致性、信任度是主要的数据和大数据质量因素。每个因素都与一个或多个必须满足的质量标准相关联,以满足质量因素。
此外,对于大数据开发人员来说,还有一些特性需要讨论,这些特性是:准确性;数据源的多样性和处理的复杂性是评估大数据质量的一个挑战。可变性;大数据类型和格式的变化可能导致质量的巨大差异。可能需要额外的工作和资源来识别、处理和过滤低质量的数据,以减少工作量和成本增加数据的有用性。价值;大数据在处理和过滤大数据时所传递的价值是什么?这个问题是大数据分析师面临的主要挑战。大数据质量的衡量不仅仅是数据质量,数据质量管理(DQM)也是一个必须考虑的质量挑战,DQM在大数据质量度量中起着关键的作用,大数据生命周期的每个阶段都必须根据一些质量规则来衡量。
大数据的生存周期图如图1所示,而DQM有五个主要步骤,可总结如下:
1)人员:项目经理、组织变革经理、业务/数据分析师是任何数据质量管理的关键角色;
2)数据分析:数据审查、比较、报告和统计分析,以检查数据的准确性或找到使用可用数据的最佳方法;
3)定义数据质量:在此阶段创建并定义数据的质量规则;
4)数据报告:删除和报告所有泄露数据;
5)数据修复:在这个阶段,修复和更改数据的最佳方法。
大数据生命周期也引入了质量因素和需要衡量的问题。因此,大数据的质量因素包括关注数据本身以及大数据管理和用户需求的因素。
外国学者曾做过一项关于大数据的品质因素研究,在这项研究中,这些品质因素被分为四类,取决于他们的视角,这些类别是:
数据透视图:关注数据质量因素,这些与通常的数据质量因素非常相似;
管理视角:如何从管理的角度处理数据;
处理和服务视角:如何使用和分析数据;
最后是用户视角:如何将这些大数据交付给目标用户并使其可视化。
一个国外的研究小组曾经也进行了四个独立的、特定领域的大数据应用案例研究。这些案例研究是对大数据收集中遇到的数据质量问题是否与传统规模的数据收集中遇到的数据质量问题在原因、表现形式或检测方面有本质不同的问题进行的初步调查。这项研究从多个层面探讨了影响大数据质量的几个因素,包括收集、处理和存储。这项研究的主要发现强调了影响大数据的主要因素在于在保持数据完整性的同时处理大数据的局限性和复杂性。这些关注点比数据的来源、处理以及用于准备、操作和存储数据的工具更重要。数据质量对于所有的数据分析问题都非常重要。从研究结果来看,“关于大数据的真相”是在大数据分析项目中没有根本上新的“数据质量”问题。不过,一些“数据质量”问题表现出规模回报效应,在大数据分析中或多或少变得明显。大数据质量因不同类型的大数据和不同的大数据技术而异。
4 结论
在本文中,主要对大数据质量因素进行了讨论。得出大数据的质量不仅与数据本身有关,而且还受到数据管理、数据处理和服务以及使用这些数据进行决策的用户的影响。因为数据的重要性不仅仅在于数据本身,但事实上,如何使用、保护、呈现和使用数据才是正确的方法。在未来,将使用所述大数据质量因素来产生不同的大数据质量模型,这些模型将用于以不同的术语衡量大数据应用的大数据质量。
参考文献:
[1]亓林芳.谈全面提高统计数据质量[J].合作经济与科技,2021(07):132-133.
[2]J. E. Alexander and M. A. Tate,Web Wisdom;How to Evaluate and Create Information Quality on the Webb:L. Erlbaum Associates Inc.,1999.
[3]L. Cai and Y. Zhu,The Challenges of Data Quality and Data Quality Assessment in the Big Data Era vol. 14,2015.
作者简介:
卫鑫,2001年生,汉,研究方向:大数据质量分析
(作者单位:西南科技大学城市学院)