大数据分析与计算体系架构研究

来源 :E动时尚·科学工程技术 | 被引量 : 0次 | 上传用户:wtwl66
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:随着现代经济社会实力的不断增加,我国现代化信息技术也在迅速的发展着,主要的应用是大数据分析与计算体系架构。其中可以分为大数据分析和大数据计算两大类。大数据分析能够从众多的数据信息中寻找到有用的信息,是挖掘信息的最主要的方式。
  关键词:大数据分析;大数据计算;架构
  1 大数据分析
  1.1 大数据分析基本概念
  大数据分析是指对海量的数据进行分析。大数据分析是运用云计算等先进网络和计算设备搜集、记录、分析和预测超大规模群集现象的现代统计方法。大数据分析主要是通过高效的算法和模式分析大数据,并挖掘大数据潜藏的巨大价值。常见的大数据分析方法主要有BloomFilter、Hashing、索引、并行计算和Trie树等。大数据分析的数据源除了传统的结构化数据,还包括半结构化和非结构化数据。针对不同的数据源采用数据抽取、统计分析及数据挖掘等多个步骤进行分析与处理,以快速挖掘出有用信息,洞悉出数据价值。
  1.2 大数据分析的基础
  Hadoop能有效地处理海量的数据,并具有存储的能力。同时,它可以整合多台计算机的资源,提供数据分散运算,在极短的时间内完成运算工作,自动保留数据副本,提高数据的可靠性和延展性。Hadoop分布式文件系统(Hadoopdistributedfifilesystem,HDFS)和Hadoop分布式计算处理架构(MapReduce)为Hadoop架构的两个核心部分。Hadoop分
  布式文件系统可对数据进行切割并制作副本备份,然后分散存储于不同的计算机或服务器上,实现对数据的迅速存取。还可备份于不同的硬件,以防止数据损坏。Hadoop分布式计算处理架构即MapReduce,由Map和Reduce构成。对数据进行分散计算是Map的主要作用。整合Map计算后的结果并提供分布式的数据平行处理分析,是Reduce的主要作用。除了两个核心部分,根据Hadoop所延伸的其他项目,现已发展成为一个生态系统。该部分主要包括Zookeeper、Avro、Hbase、Mapreduce、Sqoop、Pig、Hive、Mahout和Hadoopdistributedfifilesystem等。
  2 大数据计算平台现状及存在的问题
  大数据产品的主要的运作方式就是建立大数据计算平台,大数据计算平台主要以云计算作为硬件基础,并将其处理能力作为总体服务框架,并对大数据进行实时计算的过程。大数据计算平台能够对不同种类的数据进行收集、分析、计算、存储、处理等处理,这就使得各大企业都需要其应用,能够对企业的内部产品进行相应的检验,并组为技术基础,能够处理相关的数据处理问题。但是在实际应用中,大数据计算平台还存着较多的问题,主要有以下几个方面:
  2.1 平台研发需要交叉学科知识
  在进行设计大数据计算平台时,需要参考的知识方面涉及较多。大数据计算平台在实际应用中,所计算的数据较多,需要提高大数据的处理能力,并降低自身能源的损耗、还需要增加企业平台自身的安全性和隐私性。所以在大数据计算平台研发时,需要交叉学科知识共同应用,进而对其进行创新和发展。
  2.2 平台研发人才缺乏
  在大数据的使用中,但是由于大数据是新出的行业,主要的研发人才还没有及时的到位,并且相关的企业也并不重视大数据计算平台研发,这就导致平台的研发严重的缺乏人才。在
  企业中,实际应用平台搭建不完善,不能承担大数据计算平台的使用,所以无法对有关的项目进行处理;大数据技术还处在发展阶段,很多软件都是开源的,所以在进行应用时缺乏相关的安全性。
  2.3 技术环境不统一
  目前大数据技术开发的环境主要集中在GitHub为主的开源社区内,其余的开发环境都是小众的,所以这就使得大数据计算平台开发环境不统一。虽然可以根据用户的实际使用情况进行选择不同的平台,但是在开发应用中,却无形的提升了研发成本。
  3 大数据计算体系架构
  3.1 大数据计算系统大数据计算系统主要采用的设计方案较多,其中所涉及的技术有软件分层化、技术复杂化等,还依赖于较多的实际应用。但是在实际的系统建设中,主要分为三个基础系统,分别是数据存储系统、数据分析系统和数据分析系统。大数据的计算不仅涉及到算法的应用,还应用了较多的数据分析技术。
  3.2 大数据计算采用的方法和技术在大数据计算中所采用的方法主要是计算机科学计算法和数学统计法,在这其中还应用数据模型计算法、数据处理法、数据安全、算法优化法、数据读取和数据建模等方法。并且在大数据计算中采用了智能学习方法,能够在对数据进行处理的过程中,加强对数据的处理能力,进而提升数据结果的准确性。
  3.3 大数据计算总体架构在进行铺设大数据计算总体架构时,主要是将数据储存系统、数据分析系统和数据计算系统集合在一起,然后对数据进行整体的处理。数据储存系统主要对数据进行收集、分析、和建模,然后对处理的结果进行存储。而且在数据储存系统中还能对数据进行清洗建模、数据操作的操作。数据分析系统主要包括三维建模、数据模型和算法优化方式,为大数据计算提供了数据分析能力和实际使用能力。数据计算系统主要能够对数据进行计算,处理和分析,保证处理数据准确性。
  3.4 大数据的采集在构建大数据计算体系时,需要对大数据进行收集,对数据的收集不仅仅是来源于实际的数据,还包括结构化数据和非结构化的数据。由于数据的具有非结构化的特点,所以在进行处理时,大数据的存储系统比传统的数据存储要更加的复杂。并且在大数据计算体系中,能够构建大数据采集于建模、分布式数据库等方式来提高数据处理能力。在进行数据处理时,还需要在相关的数据库中添加多余的一项存储库,能将处理后的数据进行储存,方便后期对其调用。在构建大数据计算体系中,需要按照标准进行搭建系统,首先先建立数据层,对数据进行收集和建模,然后是建立分布式文件處理系统用来处理数据的采取,并对数据进行转化,使其被系统所是识别。在最上层需要建立分布式数据库,可以对数据记性存储管理,能够确保数据处理的稳定性。
  4 结语
  大数据分析是找出隐藏于数据信息中有用信息的主要方式,是挖掘有用价值信息的主要途径,通过分析挖掘出有用信息,为科学决策提供依据。当前,大数据计算遇到了前所未有的挑战,传统的计算理论已经不再适用于海量数据的大入系统,政府要投入一定的资金予以支持,以此更好地保障图书馆收支平衡。
  参考文献
  [1]陆杉,陈宇斌.供应链中大数据分析应用研究综述[J].商业经济与管理,2018(09):27-35.
  [2]拉玛莫哈那劳·哥达吉利.人工智能=大数据分析+机器学习+云计算[J].重庆与世界,2018(18):33-34.
  [3]龙虎.大数据分析与计算体系架构研究[J].信息与电脑(理论版),2018(18):130-131+138.
其他文献
摘 要:本文阐述了呼和浩特局集团有限公司提议研发的机车乘务员超劳预警系统,该系统实时对机车乘务员工作时间进行追踪记录,并反应出机车乘务员劳动时间,当机车乘务员工作时间达到8小时、10小时、12小时、14小时、16小时的时间节点时,利用不同颜色在预警系统的工作界面上显示区分,及时向铁路局调度所机车调度员提示预警,调度指挥就有了参照,为行车安全提供了保障。  关键词:提示预警;记录推算;显示区分;安全
期刊
摘 要:统计学是目前农业气象工作中最有效并广泛应用的研究工具,农业气象统计比一般生物统计和气象统计有着更广泛的内容和应用更复杂的特点。农业气象业务技术是开展农业气象服务的基础和前提,因此,农业气象业务技术的研发一直是国家级农业气象业务服务的核心工作。近年来,国家级农业气象业务技术已逐步迈向精细化、定量化,涵盖了农业气象监测评价、作物产量预报、农业气象灾害监测评估与影响预报、农用天气预报、农林病虫害
期刊
摘 要:近些年来,有限元法在汽车车架方面的研究日趋成熟,有限元法已经成为汽车车架结构研究的一种重要手段,对降低生产成本、缩短研制周期、提高质量具有重要意义。传统的优化设计主要包括尺寸优化、形状优化、拓扑优化等方式,而近年来逐渐成熟的多目标遗传算法和响应面法在多个学科研究中得到广泛的应用,该方法显示出强大的求解能力和广泛的适应性。因此本文采用多目标遗传算法和响应面法对房车车架进行优化设计。  关键词
期刊
摘 要:当前职业卫生技术服务机构在现场采样检测工作中存在很多缺陷与不足,例如信息记录缺乏完整性、现场调查不详细、未按照相关标准进行采样、未设置监测方案、主观随意性强、个体采样缺乏代表性以及记录不具体等多种问题。文章主要分析了我国某市职业卫生技术服务机构在有毒有害作业点进行现场采样时存在的难点与疏漏,从而提出有效建议与针对性意见,从而促进职业卫生技术服务工作效率以及质量的提升,为相关法规的制定提供理
期刊
摘 要:我国新修正的《中华人民共和国职业病防治法》于2011年颁布实施,安全生产监管部门全面开始进行职业卫生“三同时”的审查工作,不论是在项目竣工验收还是职业卫生设计专篇的审查过程中都对职业病通风防护设施给予了高度重视,从而有效解决各企业在生产过程中的尘毒超标问题。对近三年职业卫生治理经验以及职业卫生评价工作情况,总结发现现阶段我国技术标准以及法律法规对职业病通风防护设施设置必要性暂时缺较为清晰的
期刊
摘 要:共享物流是共享经济理念下的一种新型物流运作与管理模式,它通过将闲置物流资源进行社会化利用,可以有效降低社会物流成本,提高资源利用效率。目前对共享物流的研究相对较少,针对共享物流系统内部用户之间的信息不对称、不协调以及难以建立有效的信任机制等问题,目前还未提出有效的解决方案。本文在共享物流理论研究基础上,构建了一个共享物流信息平台,提出了面向该平台的共享仓储和运输服务模式,实现仓储和运输资源
期刊
摘 要:文章首先介绍了开展计算机软件工程建设中的数据库建立方法,提出结合使用需求进行编程技术选择的建立理念。其次重点探讨数据库文件建立以及程序编写的具体方法,针对现场比较常见的技术性问题来探讨解决措施,也能更好的避免出现技术隐患,为设计工作任务开展创造有利环境,并进一步提升设计任务的完成质量,计算机软件工程使用过程中的稳定性也得到了保障。  关键词:计算机软件工程;数据库编程;编程技术  1 计算
期刊
摘 要:本文简要介绍了 300KA系列结构电解槽在低电压生产过程中,如何解决低电解质,效应系数偏高,炉底压降偏高,炉帮发红等问题,以及通过技术条件严格控制和细化操作质量,不断提升管理水平等措施,使电解生产平稳而有效地运行,取得了技术经济指标情况。  关键词:300KA电解槽;电流强化;电解质;效应系数;炉底压降;炉帮发红;技术条件;操作质量;技术经济指标;生产实践  2010年开始,由于铝价的持续
期刊
摘 要:综合孔径微波辐射计的出现有效地解决了原有辐射计在微波低频段空间分辨率与天线物理尺寸间的固有矛盾, 但接收机通道阵列幅度误差的存在仍然会引起干涉测量结果的改变,使反演成像结果变差。本文设计了一维综合孔径微波辐射计理想通道仿真系统,同时给出通道幅度误差引入方案,给定两种观测场景,通过仿真得到通道幅度误差服从均匀分布和正态分布时对反演亮温的影响, 能对系统的优化设计起到理论指导作用。  关键词:
期刊
摘 要:2019年4月11日,二审合议庭当庭宣判,裁定驳回张扣扣的上诉,维持汉中市中级人民法院一审死刑判决;并依法报请最高人民法院核准。至此,张扣扣一案落下帷幕,但是,此案引发的犯罪学问题发人深省。  关键词:故意杀人;犯罪原因;犯罪预防  1 引言  2018年2月15日,張扣扣发现邻居王自新、王校军、王正军和亲戚都回到家中并准备上坟祭祖,张扣扣进行了一番伪装,拿上事先准备好的单刃刀尾随跟踪伺机
期刊