论文部分内容阅读
摘 要:随着现代经济社会实力的不断增加,我国现代化信息技术也在迅速的发展着,主要的应用是大数据分析与计算体系架构。其中可以分为大数据分析和大数据计算两大类。大数据分析能够从众多的数据信息中寻找到有用的信息,是挖掘信息的最主要的方式。
关键词:大数据分析;大数据计算;架构
1 大数据分析
1.1 大数据分析基本概念
大数据分析是指对海量的数据进行分析。大数据分析是运用云计算等先进网络和计算设备搜集、记录、分析和预测超大规模群集现象的现代统计方法。大数据分析主要是通过高效的算法和模式分析大数据,并挖掘大数据潜藏的巨大价值。常见的大数据分析方法主要有BloomFilter、Hashing、索引、并行计算和Trie树等。大数据分析的数据源除了传统的结构化数据,还包括半结构化和非结构化数据。针对不同的数据源采用数据抽取、统计分析及数据挖掘等多个步骤进行分析与处理,以快速挖掘出有用信息,洞悉出数据价值。
1.2 大数据分析的基础
Hadoop能有效地处理海量的数据,并具有存储的能力。同时,它可以整合多台计算机的资源,提供数据分散运算,在极短的时间内完成运算工作,自动保留数据副本,提高数据的可靠性和延展性。Hadoop分布式文件系统(Hadoopdistributedfifilesystem,HDFS)和Hadoop分布式计算处理架构(MapReduce)为Hadoop架构的两个核心部分。Hadoop分
布式文件系统可对数据进行切割并制作副本备份,然后分散存储于不同的计算机或服务器上,实现对数据的迅速存取。还可备份于不同的硬件,以防止数据损坏。Hadoop分布式计算处理架构即MapReduce,由Map和Reduce构成。对数据进行分散计算是Map的主要作用。整合Map计算后的结果并提供分布式的数据平行处理分析,是Reduce的主要作用。除了两个核心部分,根据Hadoop所延伸的其他项目,现已发展成为一个生态系统。该部分主要包括Zookeeper、Avro、Hbase、Mapreduce、Sqoop、Pig、Hive、Mahout和Hadoopdistributedfifilesystem等。
2 大数据计算平台现状及存在的问题
大数据产品的主要的运作方式就是建立大数据计算平台,大数据计算平台主要以云计算作为硬件基础,并将其处理能力作为总体服务框架,并对大数据进行实时计算的过程。大数据计算平台能够对不同种类的数据进行收集、分析、计算、存储、处理等处理,这就使得各大企业都需要其应用,能够对企业的内部产品进行相应的检验,并组为技术基础,能够处理相关的数据处理问题。但是在实际应用中,大数据计算平台还存着较多的问题,主要有以下几个方面:
2.1 平台研发需要交叉学科知识
在进行设计大数据计算平台时,需要参考的知识方面涉及较多。大数据计算平台在实际应用中,所计算的数据较多,需要提高大数据的处理能力,并降低自身能源的损耗、还需要增加企业平台自身的安全性和隐私性。所以在大数据计算平台研发时,需要交叉学科知识共同应用,进而对其进行创新和发展。
2.2 平台研发人才缺乏
在大数据的使用中,但是由于大数据是新出的行业,主要的研发人才还没有及时的到位,并且相关的企业也并不重视大数据计算平台研发,这就导致平台的研发严重的缺乏人才。在
企业中,实际应用平台搭建不完善,不能承担大数据计算平台的使用,所以无法对有关的项目进行处理;大数据技术还处在发展阶段,很多软件都是开源的,所以在进行应用时缺乏相关的安全性。
2.3 技术环境不统一
目前大数据技术开发的环境主要集中在GitHub为主的开源社区内,其余的开发环境都是小众的,所以这就使得大数据计算平台开发环境不统一。虽然可以根据用户的实际使用情况进行选择不同的平台,但是在开发应用中,却无形的提升了研发成本。
3 大数据计算体系架构
3.1 大数据计算系统大数据计算系统主要采用的设计方案较多,其中所涉及的技术有软件分层化、技术复杂化等,还依赖于较多的实际应用。但是在实际的系统建设中,主要分为三个基础系统,分别是数据存储系统、数据分析系统和数据分析系统。大数据的计算不仅涉及到算法的应用,还应用了较多的数据分析技术。
3.2 大数据计算采用的方法和技术在大数据计算中所采用的方法主要是计算机科学计算法和数学统计法,在这其中还应用数据模型计算法、数据处理法、数据安全、算法优化法、数据读取和数据建模等方法。并且在大数据计算中采用了智能学习方法,能够在对数据进行处理的过程中,加强对数据的处理能力,进而提升数据结果的准确性。
3.3 大数据计算总体架构在进行铺设大数据计算总体架构时,主要是将数据储存系统、数据分析系统和数据计算系统集合在一起,然后对数据进行整体的处理。数据储存系统主要对数据进行收集、分析、和建模,然后对处理的结果进行存储。而且在数据储存系统中还能对数据进行清洗建模、数据操作的操作。数据分析系统主要包括三维建模、数据模型和算法优化方式,为大数据计算提供了数据分析能力和实际使用能力。数据计算系统主要能够对数据进行计算,处理和分析,保证处理数据准确性。
3.4 大数据的采集在构建大数据计算体系时,需要对大数据进行收集,对数据的收集不仅仅是来源于实际的数据,还包括结构化数据和非结构化的数据。由于数据的具有非结构化的特点,所以在进行处理时,大数据的存储系统比传统的数据存储要更加的复杂。并且在大数据计算体系中,能够构建大数据采集于建模、分布式数据库等方式来提高数据处理能力。在进行数据处理时,还需要在相关的数据库中添加多余的一项存储库,能将处理后的数据进行储存,方便后期对其调用。在构建大数据计算体系中,需要按照标准进行搭建系统,首先先建立数据层,对数据进行收集和建模,然后是建立分布式文件處理系统用来处理数据的采取,并对数据进行转化,使其被系统所是识别。在最上层需要建立分布式数据库,可以对数据记性存储管理,能够确保数据处理的稳定性。
4 结语
大数据分析是找出隐藏于数据信息中有用信息的主要方式,是挖掘有用价值信息的主要途径,通过分析挖掘出有用信息,为科学决策提供依据。当前,大数据计算遇到了前所未有的挑战,传统的计算理论已经不再适用于海量数据的大入系统,政府要投入一定的资金予以支持,以此更好地保障图书馆收支平衡。
参考文献
[1]陆杉,陈宇斌.供应链中大数据分析应用研究综述[J].商业经济与管理,2018(09):27-35.
[2]拉玛莫哈那劳·哥达吉利.人工智能=大数据分析+机器学习+云计算[J].重庆与世界,2018(18):33-34.
[3]龙虎.大数据分析与计算体系架构研究[J].信息与电脑(理论版),2018(18):130-131+138.
关键词:大数据分析;大数据计算;架构
1 大数据分析
1.1 大数据分析基本概念
大数据分析是指对海量的数据进行分析。大数据分析是运用云计算等先进网络和计算设备搜集、记录、分析和预测超大规模群集现象的现代统计方法。大数据分析主要是通过高效的算法和模式分析大数据,并挖掘大数据潜藏的巨大价值。常见的大数据分析方法主要有BloomFilter、Hashing、索引、并行计算和Trie树等。大数据分析的数据源除了传统的结构化数据,还包括半结构化和非结构化数据。针对不同的数据源采用数据抽取、统计分析及数据挖掘等多个步骤进行分析与处理,以快速挖掘出有用信息,洞悉出数据价值。
1.2 大数据分析的基础
Hadoop能有效地处理海量的数据,并具有存储的能力。同时,它可以整合多台计算机的资源,提供数据分散运算,在极短的时间内完成运算工作,自动保留数据副本,提高数据的可靠性和延展性。Hadoop分布式文件系统(Hadoopdistributedfifilesystem,HDFS)和Hadoop分布式计算处理架构(MapReduce)为Hadoop架构的两个核心部分。Hadoop分
布式文件系统可对数据进行切割并制作副本备份,然后分散存储于不同的计算机或服务器上,实现对数据的迅速存取。还可备份于不同的硬件,以防止数据损坏。Hadoop分布式计算处理架构即MapReduce,由Map和Reduce构成。对数据进行分散计算是Map的主要作用。整合Map计算后的结果并提供分布式的数据平行处理分析,是Reduce的主要作用。除了两个核心部分,根据Hadoop所延伸的其他项目,现已发展成为一个生态系统。该部分主要包括Zookeeper、Avro、Hbase、Mapreduce、Sqoop、Pig、Hive、Mahout和Hadoopdistributedfifilesystem等。
2 大数据计算平台现状及存在的问题
大数据产品的主要的运作方式就是建立大数据计算平台,大数据计算平台主要以云计算作为硬件基础,并将其处理能力作为总体服务框架,并对大数据进行实时计算的过程。大数据计算平台能够对不同种类的数据进行收集、分析、计算、存储、处理等处理,这就使得各大企业都需要其应用,能够对企业的内部产品进行相应的检验,并组为技术基础,能够处理相关的数据处理问题。但是在实际应用中,大数据计算平台还存着较多的问题,主要有以下几个方面:
2.1 平台研发需要交叉学科知识
在进行设计大数据计算平台时,需要参考的知识方面涉及较多。大数据计算平台在实际应用中,所计算的数据较多,需要提高大数据的处理能力,并降低自身能源的损耗、还需要增加企业平台自身的安全性和隐私性。所以在大数据计算平台研发时,需要交叉学科知识共同应用,进而对其进行创新和发展。
2.2 平台研发人才缺乏
在大数据的使用中,但是由于大数据是新出的行业,主要的研发人才还没有及时的到位,并且相关的企业也并不重视大数据计算平台研发,这就导致平台的研发严重的缺乏人才。在
企业中,实际应用平台搭建不完善,不能承担大数据计算平台的使用,所以无法对有关的项目进行处理;大数据技术还处在发展阶段,很多软件都是开源的,所以在进行应用时缺乏相关的安全性。
2.3 技术环境不统一
目前大数据技术开发的环境主要集中在GitHub为主的开源社区内,其余的开发环境都是小众的,所以这就使得大数据计算平台开发环境不统一。虽然可以根据用户的实际使用情况进行选择不同的平台,但是在开发应用中,却无形的提升了研发成本。
3 大数据计算体系架构
3.1 大数据计算系统大数据计算系统主要采用的设计方案较多,其中所涉及的技术有软件分层化、技术复杂化等,还依赖于较多的实际应用。但是在实际的系统建设中,主要分为三个基础系统,分别是数据存储系统、数据分析系统和数据分析系统。大数据的计算不仅涉及到算法的应用,还应用了较多的数据分析技术。
3.2 大数据计算采用的方法和技术在大数据计算中所采用的方法主要是计算机科学计算法和数学统计法,在这其中还应用数据模型计算法、数据处理法、数据安全、算法优化法、数据读取和数据建模等方法。并且在大数据计算中采用了智能学习方法,能够在对数据进行处理的过程中,加强对数据的处理能力,进而提升数据结果的准确性。
3.3 大数据计算总体架构在进行铺设大数据计算总体架构时,主要是将数据储存系统、数据分析系统和数据计算系统集合在一起,然后对数据进行整体的处理。数据储存系统主要对数据进行收集、分析、和建模,然后对处理的结果进行存储。而且在数据储存系统中还能对数据进行清洗建模、数据操作的操作。数据分析系统主要包括三维建模、数据模型和算法优化方式,为大数据计算提供了数据分析能力和实际使用能力。数据计算系统主要能够对数据进行计算,处理和分析,保证处理数据准确性。
3.4 大数据的采集在构建大数据计算体系时,需要对大数据进行收集,对数据的收集不仅仅是来源于实际的数据,还包括结构化数据和非结构化的数据。由于数据的具有非结构化的特点,所以在进行处理时,大数据的存储系统比传统的数据存储要更加的复杂。并且在大数据计算体系中,能够构建大数据采集于建模、分布式数据库等方式来提高数据处理能力。在进行数据处理时,还需要在相关的数据库中添加多余的一项存储库,能将处理后的数据进行储存,方便后期对其调用。在构建大数据计算体系中,需要按照标准进行搭建系统,首先先建立数据层,对数据进行收集和建模,然后是建立分布式文件處理系统用来处理数据的采取,并对数据进行转化,使其被系统所是识别。在最上层需要建立分布式数据库,可以对数据记性存储管理,能够确保数据处理的稳定性。
4 结语
大数据分析是找出隐藏于数据信息中有用信息的主要方式,是挖掘有用价值信息的主要途径,通过分析挖掘出有用信息,为科学决策提供依据。当前,大数据计算遇到了前所未有的挑战,传统的计算理论已经不再适用于海量数据的大入系统,政府要投入一定的资金予以支持,以此更好地保障图书馆收支平衡。
参考文献
[1]陆杉,陈宇斌.供应链中大数据分析应用研究综述[J].商业经济与管理,2018(09):27-35.
[2]拉玛莫哈那劳·哥达吉利.人工智能=大数据分析+机器学习+云计算[J].重庆与世界,2018(18):33-34.
[3]龙虎.大数据分析与计算体系架构研究[J].信息与电脑(理论版),2018(18):130-131+138.