基于Hadoop的免疫规划管理信息平台研究

来源 :中国管理信息化 | 被引量 : 0次 | 上传用户:stystill
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘 要]在传统的信息系统平台架构中Oracle数据库服务器往往存在性能扩容困难、维护成本较高等问题。针对该问题,利用分布式存储和并行计算技术搭建Hadoop分布式集群平台,通过实验证明,Hadoop集群平台能够有效利用的节点服务器资源,分摊压力,提高计算速度。
  [关键词]Hadoop;Oracle;免疫规划;并行计算;内存数据表
  doi:10.3969/j.issn.1673 - 0194.2015.08.064
  [中图分类号]TP315 [文献标识码]A [文章编号]1673-0194(2015)08-0086-02
  “浙江省免疫规划管理信息系统”建设于2004年,因平台性能提升速度未能跟上数据增长的速度,导致在系统的运行中暴露出一些问题。本文就浙江省免疫规划管理信息系统结合Hadoop技术,提升查询速度的可行性和进行探讨。
  1 实例分析
  浙江省免疫规划管理平台采用传统的三层架构。依靠虚拟化技术和负载平衡技术,实现多Web服务器并行,满足接种点客户端软件的大并发接入需求。使用4路X86架构服务器,部署Oracle软件构建数据库服务器。根据浙江省免疫规划业务管理的要求,平台服务器将至少保存0-13岁的儿童免疫接种数据。截至2014年12月,平台共计接入接种点2 047家,集中存放的儿童个案数超过1 500万,保存的儿童接种记录信息超过2.5亿条。2015年起还将增加成人接种、临时/强化接种等数据。
  浙江省免疫规划管理平台服务器性能就已经跟不上业务发展的要求,主要表现在两个方面:以上计算压力太大,平台服务器每晚需要以接种点、乡镇、县区、地市、省级为单位分别进行6份报表的计算,整个计算过程需要10小时,一旦碰到强化免疫等特殊阶段,平台服务器就无法完成在次日06:00点之前完成计算;二是动态查询耗时太长,仅在全省范围内对儿童个案进行动态模糊查询就需耗时7~10分钟。
  2 Hadoop介绍
  Hadoop是Apache软件基金会资助的开源项目,由Doug Cutting带领的团队受到Google Lab开发的Map/Reduce和Google File System(GFS)的启发,开发的一款能够对大数据进行分布式系统基础架构。Hadoop提供了MapReduce并行计算框架,其自动将一个作业需要处理的大数据划分为多个数据块,分发给集群上的节点进行计算。此外,Hadoop还提供了分布式文件系统(HDFS),用以存储所有计算节点的数据。Hadoop让应用程序能够利用上千万的独立计算机性能和处理PB级的数据。
  由于MapReduce需要将任务划分成Map和Reduce两个阶段,Map阶段产生的中间结果要写回磁盘,而在这两个阶段之间需要进行Shuffle操作。Shuffle操作需要从集群中的各个节点进行数据拷贝,大量的时间耗费在网络磁盘I/O中。为了改变这个现象,Hadoop 2.0系列增加了对Spark的支持。
  Spark是一个开源的通用并行分布式计算框架,由加州大学伯克利分校的AMP实验室开发,支持内存计算、多迭代批量处理、即席查询、流处理和图计算等多种范式。Spark内存计算框架适合各种迭代算法和交互式数据分析,能够提升大数据处理的实时性和准确性。Spark可以看做是Hadoop的补充,可以在Hadoop 的分布式文件系统(HDFS)中并行运行。Spark可以与MapReduce运行于同个集群中,共享存储资源与计算,可用来构建大型的、低延迟的数据分析应用程序。
  3 测试硬件环境
  服务器硬件配置:本次实验使用了一台2U的4子星服务器,其内含4个单节点,每个单节点配置相同。节点服务器软硬件配置如表1所示。Hadoop集群包括1个NameNode和4个DataNode,各节点配置如表2所示。
  4 实验内容及结果分析
  在创建好的Hadoop集群服务器上,导入与浙江省免疫规划管理信息系统Oracle数据库中儿童基本信息表相同的表结构和记录数的数据表(247列,12 283 852行)进行实验,通过实验来验证Hadoop的执行效果。
  实验一:执行“select count(*)from test_table”SQL语句进行全表扫描统计行数,记录语句执行时间。连续执行5次求出全表扫描统计平均耗时为3.591秒。
  实验二:借助dstat监控工具,记录在执行“select count(*)from test_table”SQL语句进行全表扫描统计行数是节点服务器的CPU、内存的利用率的变化。安装命令:yum install dstat。配置监控数据写入文件命令:dstat -tcmn >cpu_mem_net.log。执行全表扫描统计行数命令,得出每台节点服务器在命令执行过程中的CPU、内存使用情况。图1的纵轴为CPU利用率(%USER),横轴为时间轴。图2的纵轴为内存利用(G),横轴为时间轴。
  从实验结果来看,基于内存表技术能够有效地缩短数据表的查询统计时间,Hadoop的分布式技术也能够有效地分配和利用各节点服务器的资源。
  5 结 语
  本文对Hadoop基于内存表技术的并行计算效果进行研究,通过实验验证在传统二维数据表结构场景下Hadoop的并行处理方式具有高效、快速的特点。
  主要参考文献
  [1]鲍彤,陈维锋.基于Hadoop的分布式集群平台构建方法研究[J].信息通信,2013(8):21-22.
  [2]唐世庆,李云龙,田凤明,等.基于Hadoop的云计算与存储平台研究与实现[J].四川兵工学报,2014(8):97-100.
  [3]Matei Zaharia.An Architecture for Fast and General Data Processing on Large Clusters[D]. Berkeley,CA:University of California,2014.
  [4]林祥辉,张瑾,黄康平,等.一种基于内存的高效在线数据处理服务框架[J].中文信息学报,2014,28(1):80-86.
其他文献
[摘要]随着企业竞争环境的剧烈变化和网络环境的成熟,传统会计业务流程逐渐暴露出其固有的缺陷。本文通过分析传统会计业务流程的特点,结合网络环境的新特性,运用企业业务流程重组的理念,提出了会计流程重组的目标和基本模式,为会计工作健康发展提供了理论依据。  [关键词]网络环境;会计流程;业务流程重组  [中图分类号]F232 [文献标识码]A [文章编号]1673-0194(2008)08-0007-0
[摘 要]企業化管理是事业单位管理制度改革优化的重要内容,对于提高事业单位管理水平具有重要的作用。基于此,针对内部控制在企业化管理事业单位中的应用,首先分析了应用内部控制管理的具体作用,然后分析了企业化管理的事业单位在内部控制上存在的一些问题,最后结合这些问题系统论述了强化内部控制管理水平的可行措施,为事业单位管理工作的实施开展提供参考。  [关键词]事业单位;企业化管理;内部控制  doi:10
[摘要]本文主要分析了安徽省外出务工人员的流动现状,结合安徽省皖江城市带承接产业转移的背景,提出相关引导省外务工人员回流的对策。  [关键词]外出务工人员;皖江城市带;回流;产业转移  doi:10.3969/j.issn.1673-0194.2013.08.021  [中图分类号]F323[文献标识码]A[文章编号]1673-0194(2013)08-0041-02  2010年初国务院批复了《
[收稿日期]2008-12-02  [作者简介]魏祥健(1975-),男,重庆人,重庆科技学院管理学院讲师,硕士,主要研究方向:会计信息化。  [摘 要]随着现代信息技术的发展,传统的会计高等教育已不利于培养高素质的会计人才。因此,在新时期ERP环境下,我们必须转变教育观念,改变教学方式,提高教学平台,创新教学模式来适应会计教育的需要。本文从这一目的出发,对新环境下的会计信息一体化的理论教学体系
[摘 要] 本文以虚拟商业社会环境(VBSE)这种综合实训平台为主题,倡导“企业搬进校园”的实践教学模式。分析了此种实践教学模式在财经类院校实验室建设方面的意义,并就建设此模式实验室关键要素点进行分析。  [关键词] 实践教学; 企业搬进校园; VBSE  doi : 10 . 3969 / j . issn . 1673 - 0194 . 2012 . 08. 070  [中图分类号]
[摘 要]本文通过对企业电子商务可持续发展的条件进行深入分析,认为打造优势产品与发展电子商务密切相关,两者相互支撑,相互促进,进而提出了企业发展电子商务与打造优势产品相互融合的具体发展道路。  [关键词]电子商务;优势产品;辽宁企业  doi:10.3969/j.issn.1673 - 0194.2016.22.082  [中图分类号]F842;F724.6 [文献标识码]A [文章编号]1673
[摘 要] 本文以我国证券市场1998-2006年的上市公司为样本,在控制其他变量的影响后,实证研究了客户重要性与审计师独立性之间的相关性。研究发现:随着客户重要性的增加,审计师会更加谨慎,进而会更加倾向于出具非标审计意见。由此得出的研究结论是:客户重要性没有影响审计师独立性。  [关键词] 客户重要性;审计意见;相关分析;回归分析  doi : 10 . 3969 / j . issn . 16
[摘 要] 会展经济具有较强的产业带动效应,可以带动运输业、电信业、广告业、印刷业、餐饮业、旅游业、服务业等相关产业的发展,同时可以提高城市知名度、促进城市经济贸易合作、加强城市基础设施建设和提高城市文明素质,产生十分可观的间接的经济效益和社会效益,因而受到各方的关注。近年来,呼和浩特市经济持续快速增长,呈现出发展会展经济的区域和产业优势,同时也存在自身的不足。本文从分析会展经济基本问题入手,研究
[摘 要] 数字化校园是高校信息化建设的重要内容。本文从高校信息化建设面临的问题出发,提出“以人为本”的数字化校园建设理念。  [关键词] 高校信息化; 数字化校园; 以人为本  doi : 10 . 3969 / j . issn . 1673 - 0194 . 2012 . 23. 076  [中图分类号] G717; G718.5 [文献标识码] A [文章编
摘要:吐哈油田油资料每年产生大量的测试数据,历史资料非常丰富,这些资料没有得到充分有效的利用。建立油藏动态监测数据库,对油藏动态监测资料进行统一管理和实时共享,以扩大在油田开发中的深化应用,并提高测试数据的利用率和解释评价质量。  关键词:油藏 动态监测 数据库  一、项目背景  吐哈油田油藏动态监测资料每年产生大量的测试数据,历史资料非常丰富,这些资料没有得到充分有效的利用。建设动态监测数据库综