基于Hadoop平台的大数据应用系统解决方案

来源 :科学与财富 | 被引量 : 0次 | 上传用户:liudongjiw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:当前在进行大数据应用过程中存在三方面的问题,分别是大数据的存储、分析和管理的问题,如果不能有效解决这些问题,将会直接影响其发展和应用。下面在总结前人经验的基础上,根据当前研究所得到的成果,提出有效的解决策略,希望给有关人士一些借鉴。
  关键词:Hadoop平台;大数据;应用系统
  当前移动电子商务、云计算、互联网得到的快速发展,在整个数据库市场中大数据占据很重要的地位,而且这一趋势还在继续发展,由此可见,基于Hadoop平台的大数据将会得到广泛的推广。大数据具有广度宽、深度深、规模大的特点,而且处理时间短,要求处理效果高,当前在应用中存在一定问题,下面就深入分析这方面的问题。
  1分析大数据的存储问题和解决方案
  1.1大数据的存储问题
  HDFS属于一种分布式文件系统,其中一个文 件以多个block的形式存放在多个Namenode节点上,每个block有多个副本,副本存放的位置根据HDFS放置算法来决定,但是在这方面还要注意,在HDFS中缺省block副本数和大小,但是对于所缺省的参数可以重新进行设置,对于CLIENT文件,可以临时设置两个参数,有效提高了系统的灵活性,在文件中其逻辑处理单元、重要性、大小都不同。由此可见,HDFS可以对非结构化数据进行存储,对数据实施分布式计算,具有较高的性价比,系统运行可靠性比较高,通过增加机器设备,就可以保证系统的存储能力。HDFS文件在读写并行方面存在问题,其已经可以读读并行,但是写读并行、读写并行中会受到制约,对于正在写操作的文件,读用户看不到最后的block内容。
  1.2相应的解决方案
  针对HDFS文件在读写并行方面存在问题,技术人员分析了HDFS文件组织方式,其真实数据文件和元数据文件是单独存放的,其中的每个数据块都和本地文件系统相对应,因此在处理这一问题时,先不要改动HDFS的主要接口和主要特点,利用这方面的逻辑处理功能,编号算法等,对不同的HDFS文件进行块集合组合,可以有效解决问题。
  2 大数据分析过程的问题和解决方案
  2.1 Hadoop生态系统存在的问题
  Hadoop生态系统进行数据分析时有其自己的特点,对板结构化的数据、非结构的化的数据比较容易处理,系统拥有很好的容错性和扩展性,该系统的接口类型很多,适应运行环境的异构性,该计算模型可以采用并行方式计算,因此该系统可以得到很好的性能,但是这一系统在相同条件下,和商业并行数据库进行测试对比,其在性能方面存在很大的劣势。
  2.2有效的解决方案分析
  为了解决上述的问题,可以从三个方面进行分析,第一点,Hadoop生态系统开始研发时是针对半结构化数据、非结构化数据;第二点,这一生态系统容错性和可扩展性非常好,技术人员在改进时,如果增加节点数量就可以得到很好的性能,因此在使用中不需要在相同条件下和并行数据库进行对比。在增加了节点的数量后,没有必要对SQL接口查询命令进行修改,也没有必要对编程语言进行修改,达到很好的效果。机器使用的是中低端设备,其对性价比没有较大的影响,当前生态系统自身也可以对其问题、性能等进行优化,例如数据的压缩优化、job调度程序优化,体系结构优化等。当前主要有两种解决方式,分别是混合型MapReduce解决方式,其主要吸收了并行數据中的一些特点,还有一种是经典型MapReduce解决方式,主要针对生态系统中的HadoopDB项目和HadoopDB MapRe-duce项目。
  3大数据管理问题和解决方案
  3.1分析大数据管理中有待解决的问题
  一般在大数据管理中都不重视易用性,其中的hadoop也有类似的问题,但是在商业解决方案中技术人员就注意到了这一点,因此在设计中具有针对性,有效解决了这一问题。例如IBM大数据解决方案中,BI-ginsights对相应的集群、作业运行、HDFS文件管理有一个统一的管理模式,管理中系统具有可视化功能,对于大数据解决方案而言,也有赖于内部的集群管理系统。对于一个完整的大数据解决方案而言,必须使用到一体化的管理系统,这一系统在管理中包括很多的项目,例如通过大量机器构成大集群和小集群,具有多种数据来源,涉及到很多作业的运行和部署。在管理中如果只使用手工操作,没有专业的平台和技术工具等,不能保证系统的工作效率,间接也会影响系统的进一步推广。相关企业虽然使用这一生态系统建立了平台,没有一个完整的集群配置平台,在删除节点和增加节点时必须进行手工操作,进行参数配置时主要依靠个人经验,工作中没有可靠的模拟器来帮助。从当前的解决方案中分析,在对Hadoop生态系统大数据管理中,主要应用了Ganglia和Sqoop[1]。
  3.2分析具体的解决方案
  解决大数据中的管理问题时,主要引入了Sqoop技术,其可以将生态系统以外的内容导入其中,还可以将内部的数据导出,具体应用Sqoop技术时主要存在下列问题,缺少图形化的客户端,导入的效率还需要进一步提高 稳定性问题需要解决。针对这一情况,技术人员进行了深入的研究,进而开发设计出了插件、application、Web客户端。在使用中发现使用Sqoop进行大表导入过程中,工作状态较差,导入效率低,而且经常出现问题,技术人员根据MapReduce设计出了大表导入编程模型,在该方式下实行切分算法,具体而言,对大表总的记录mapper数求步长,得到与之对应的splitSQL查询语句的起始行和区间长度,最终就可以保证导入工作量完全相同;这一模型工作方式是先进入 到MAP函数的键值对中的键[2],是split对应的SQL语句,把查询放入到地图函数中,这样使用这一模型时,对于其中的每一个mapper只调用一次map函数,通过实验对比得知,使用的大表记录数据都相同,测试中无论是记录的分布情况还是区间情况,导入的时间都相同,或者对同一表分别用不同的分割字段,导入时间也完全相同。针对同一个大表模型而言,其实际导入效率比Sqoop有明显的提高。在引入Ganglia技术时,主要存在两个问题,分布是收集到的metrics数据只能进行显示,用户不能制定自己的metrics。针对这一情况,可以在OpenTSDB架构中融入Ganglia,这样可以吧gmond所收集到的数据送往HBase和RRDTool中,有效解决了上述存在的问题,使用中可以进行监控,还有些保存了原始数据。
  总结:
  通过以上对Hadoop平台的大数据应用系统解决方案分析,根据现实应用中存在的问题,结合生态系统的特点解决其问题,可以得到显著的效果。在商业的解决方案中,在服务、易用性、性能方面具有优势,在解决问题时,技术人员还优化了相关项目,前言工作者已经开始开发与之配套的管理套件。在以后的发展中,Hadoop生态系统发展速度会更快,但是在发展中要提高对大数据安全的重视度,否则影响会很大。
  参考文献:
  [1]陈吉荣,乐嘉锦.基于Hadoop生态系统的大数据解决方案综述[J].计算机工程与科学,2013,35(10):25-35.
  [2]向庭波,刘树庄,何涛,等.大数据技术在卡口系统联网方面的应用——基于Hadoop的卡口系统云计算联网平台改造设计与开发[J].中国公共安全:学术版, 2015(11):45-50.
  作者姓名:朱立 出生年月:1970年3月 学历:硕士
其他文献
摘要:现如今的时代是集文化与科学技术于一体的科技信息时代, 在这种背景下,我国也迎来了大数据时代,并且面临着严峻的挑战。为了顺应时代的发展,我们必须针对现在所面对的挑战进行思考、分析,考虑应对对策,以便更好地促进大数据时代发展。本文将从科技数据挑战与科技情报服务的发展和大数据时代科技情报工作面临挑战以及应对对策来进行讨论,希望可以有针对性的解决我国目前所面临的挑战,促进我国大数据时代情报服务更好的
期刊
摘要:近些年来,上市公司会计造假的案件时披露,这不仅动摇了市场经济的基础,而且注册会计师也遭到各方的责难,卷入很多案件。并且大部分案件都以注册会计师的失败而告终,可见验资的风险越来越大。一些会计师事务所为了能够自保,远离验资风险,甚至会刻意回避验资业务的受托,严重妨碍了验资这一重要业务的长远发展。  验资中存在的验资不真实问题还是比较严重。而企业出资不实不仅会影响企业的信誉和持续发展,还会影响市场
期刊
摘要:压力容器是指盛装气体或者液体,并承载一定压力的密闭设备,广泛应用于石油、化工以及其他相关企业。焊接是压力容器制造过程中的基本加工方式,焊接质量决定着压力容器的耐久度、压力稳定性、外观美观程度以及价格等,此外,从节省制造成本的角度来看,不同用途的压力容器会采取不同的焊接工艺,所以焊接技术对于压力容器的制造来说至关重要。随着自动化技术的不断发展,越来越多的焊接新技术被应用到压力容器制造行业,并且
期刊
摘要:变频器是一种重要的电气设备,通过改变交流电动机的供电频率,从而实现对交流电动机转速的调整,有利于提高电气设备的控制精度、生产效率和产品质量,在各个行业的生产和控制活动中发挥着重要的应用价值。本文对变频器的结构和技术原理进行了分析,并探讨了变频器常见故障及改善措施。  关键词:变频器;常见故障;改善措施  引言  伴随社会整体不断进步,我国科技水平得到明显提升,变频技术也日益完善成熟,越来越多
期刊
摘要:电厂工作中出现的事故原因和事故后果进行统计分析,发现的很多问题都是由于工作人员准备不足,工作中遇到突发情况时没有应急方案,给电厂的安全运行带来了极大的威胁。本文首先对危险点预控的含义及重要性进行概括,就火电厂集控运行中危险点产生的原因和预控措施展开探讨,以便为我国火电厂提供更加可靠安全的运行方法。  关键词:火电厂;集控运行;危险点;预防措施  0 前言  火力发电中集控运行是重要单位,对其
期刊
摘要:随着我国国际化进程的发展日益加快,国内企业签订的国际贸易合同越来越多。而因为国际贸易合同存在着较高的风险,我国企业对合同的风险管理意识又比较弱,所以往往会造成不必要的损失。本文首先对国际贸易合同中风险的成因进行了分析,然后在对国际贸易合同的风险进行了说明,随后提出了保护我国国内企业国际贸易合同安全的风险防范措施。  关键词:国际贸易合同;风险成因;风险管理分析  引言  当前国际贸易的竞争压
期刊
摘要:土地是农民最重要的生产资料,是农民的根本利益所系。在我國历史的发展过程中,解决农村的民生问题必须从土地入手,在我国城镇化的快速发展的过程中,对土地的需求逐年增加,土地征占、土地流转纠纷增多,在一定程度上损害了农民的土地权利。土地确权是保障农民的财产权益的关键,是解决土地纷争、开展农村现代化建设、完善农业经营体系的重要内容,也是实现城乡和谐发展的重要保证。因此,对农村土地进行确权具有非常重要的
期刊
摘要:车联网作为物联网中与人们出行、交通安全有着紧密联系的技术日益受到人们关注。车联网的数据安全作为保证车联网整体安全的关键环节也突显了其重要性。车辆本身数据、车辆位置数据、车辆身份数据、路况数据,这几方面的数据的安全性与可靠性决定了车辆与人的安全。通过对这几方面数据的分析,指出其存在的问题,并对问题的解决给出个人的见解。  关键词:车联网、数据安全、身份认证、移动数据系统、数据隐私性  一、引言
期刊
摘要:对于策划编辑来说,前期调研的重要性不言而喻。会议调研属于直接调研的形式,对于获取市场信息、寻找作者具有非常重要的作用。在参加会议的准备阶段、实施阶段以及会议后的总结阶段有一些方法和技巧,可以帮助编辑充分利用会议来开发选题。本文旨在通过分析会议前后的一些注意事项,梳理参加会议必须做的一些工作,来使参加会议达到最佳效果。  关键词:会议;选题;渠道  中图分类号:G237 文献标识码:A  市场
期刊
摘要:2015年以来,工具队以采油厂开展的“转型发展创效益、立足岗位比作为”活动为载体,立足服务生产单位,工作重点前移,调整工作思路,对管理流程再分析,对后勤保障的效率再挖潜,重点抓好物资保障工作的“快、准、灵”,积极推进节约挖潜和创收工作,力争做到物料供应安全、及时,同时紧紧围绕如何实现责任目标落实,创新实施了具有工具队特色的分解分级管理模式,全面提高了设备、质量、HSE管理和员工综合素质,有效
期刊