一种大数据的高效处理方法研究

来源 :中国新通信·理论版 | 被引量 : 0次 | 上传用户：lkks06

【摘要】

：

【作者】

：

张凯

【出处】

：

中国新通信·理论版

【发表日期】

：

2020年6期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：本文提供了一种方法，在数据存储的同时依据业务规则进行数据索引的创建，建立索引工作机制，该机制确保索引数据本身安全、高可用性;客户端依据已创建的索引，利用SQL引擎进行可视化高效查询、展示;创建资源管理模块和和任务处理模块，资源管理模块实现集群内资源的管理、调度，任务处理模块实现所有任务的资源申请、任务切分、结果合并、任务状态维护、结果输出，这样保证了任务执行的快速、高效。
　　关键词：索引;Hadoop;内存缓冲;并行计算;任务处理
　　引言
　　随着平安城市、智慧城市等大型项目的在各地的广泛开展，数据集聚、数据融合进一步发展，需要处理的数据量达到了TB级、PB级，大数据量的处理产生了一系列现实问题，原先关系型数据库在面对如此大的数据量时，其技术架构、处理能力、处理方式等越来越不能满足用户需求[1-2]。
　　云计算、大数据技术的发展给海量数据的处理提供了很好的解决途径，Hadoop框架体系更是运用并行计算、分布式存储（HDFS）的方式实现了大数据量的存储和计算。但是，分布式存储（HDFS）的数据很难直接被进行处理（不支持结构化查询语句（SQL）直接进行处理），且计算任务最终都需转化成MapReduce框架来执行，其管理节点任务重、效率低、易导致单点故障。如何快速、便捷的对海量数据进行处理？如何在提高任务处理效率的同时，增加系统的可用性成为亟待解决的问题[3]。
　　一、大数据平台
　　大数据平台采用目前主流的hadoop技术，通过hadoop分布式文件系统（HDFS）进行数据分布存储;由于Hbase列式存储的操作不太符合结构化数据库操作的程序员，便对大数据平台的架构进行阐述：
　　a）入库索引的创建：针对业务场景，选取高价值、有意义、时间顺序的属性组成联合索引。每个数据节点上采用多线程创建索引;
　　b）每个数据节点上设置内存缓冲区，存储已创建的索引，当索引达到一定量时，将历史索引数据和不被经常使用索引记录通过退出机制固化到磁盘，并进行分布式存储（HDFS）以保证可用性，同时为了提高数据高可用性;
　　c）SQL引擎针对索引实现实时、快速查询;
　　d）管理节点将资源管理模块和任务处理模块分开，资源管理实现集群内资源的管理、调度，任务处理模块实现所有任务的资源申请、任务切分、结果合并、任务状态维护、结果输出。
　　二、索引创建
　　在分布式文件系统（HDFS）的基础上，在数据节点上创建进程，并进行数据索引的创建。该索引基于具体的业务进行创建，直接服务于业务应用，在数据节点进行数据存储的同时利用已有的规则构建索引，数据存储在磁盘中，产生的元数据存储在管理节点上，索引先存储在内存中，内存存储模块保持一定量的内存大小，为了保证数据的高可用性，在硬盘中同时进行固化存储，以分布式文件的形式进行存储，进行多副本存储，索引文件存入磁盘工作机制以内存存储区大小、索引形成先后顺序和索引文件使用程度参数为依据进行固化，将最先形成、使用程度最低的索引先固化到磁盘，这样应用最多的业务数据索引将始终保存在内存区，便于快速使用。
　　用户提交查询请求，比如说某个模糊的车辆车牌信息，控制模块对输入的查询请求信息进行分析，控制模块首先对查询条件进行自动语义识别，从内存索引中进行查找，如果内存索引查找不到，即到磁盘索引存储区进行查找，通过查找到的索引去磁盘中获得原始数据，并将数据返回、呈现给用户。
　　三、处理流程
　　资源管理节点实现对计算模块资源的管理，每一个任务首先被任务处理模块进行接收，任务处理模块将根据任务的优先级、难易程度情况向资源管理模块申请资源，资源管理模块依据调度算法给出具体的任务处理资源，返回给任务处理模块，任务处理模块负责将任务传递给给定的资源处理模块，并同时负责任务的切分、处理、归并、失败任务重启等功能，最终完成任务的执行。
　　S1：接收待存储数据。
　　数据节点接收待存储的数据，所接收的数据可来自任何数据源，涵盖结构化、半结构化、非结构化多种数据类型。
　　S2：存储模块，实现待存储数据的存储及索引的建立。
　　数据节点实现对待存储数据的存储，同时在HDFS的基础上运用组件构建索引，索引面向业务应用场景建立，选取有价值的、时间先后顺序进行构建。
　　S3：檢索模块，实现基于创建索引的SQL操作。
　　索引创建完成后，即可针对索引进行检索。运用结构化查询组件实现SQL操作并进行数据结构化展示。
　　S4：处理模块，实现任务的快速、高效处理。
　　管理节点将资源管理和任务处理主要功能模块分开，分为资源管理模块和任务处理模块，资源管理模块实现资源的分配、资源状态监测、资源回收功能，任务处理模块实现资源的申请、利用功能，解决了原管理节点任务重、效率低、易导致宕机的问题。
　　四、总结
　　某市交通管理部门利用上述方法构建交通大数据稽查系统，实现亿条数据模糊检索毫秒级响应，为交通在线查询、交通布控、态势把握等业务应用有效快速的开展提供了有力的技术支撑。
　　参考文献：
　　[1]唐云善，杨志.一种高效的大数据实时性解决方案[J].计算机与数字工程，2014，294（42）：678.
　　[2]大数据时代的特点[OL].<http：//blog.sina.com.cn/s/blog_9010d7d20101c2gz.html.>.
　　[3]许吴环.大数据的特点及处理平台比较[J].决策与信息，2017，459（1）：103.
　　作者简介：
　　张凯（1983-），男，安徽合肥人，讯飞智元信息科技有限公司，硕士研究生，研究方向：大数据、云计算、智慧城市。

其他文献

PLC技术在机械电气控制装置中的应用

摘要：伴随着现代科学技术的发展，机械电气控制装置中也开始逐渐运用先进技术，以可编程逻辑控制器技术为核心的机械电气控制系统呈现出了新兴科技产业的蓬勃朝气。本文章首先对PLC技术以及电气控制进行了简单概述，其次对PLC 技术在机械电气工程控制装置中的优势进行了分析，最后研究了PCL技术在机械电气工程控制装置中的具体应用。　　关键词：PLC技术;电气控制;控制装置　　引言：科学技术是第一生产力，随着

期刊

火炬螺杆压缩机泄漏气减压部件及附属水线的改造与应用

摘要：本文論述了火炬螺杆压缩机密封故障率高的主要原因。通过到炼厂对实际案例进行调研分析，制定了对该机泄漏气减压部件及附属水线改造的方案并取得了显著效果。　　关键词：螺杆压缩机;密封故障率高;泄漏气减压及水线;改造　　我把解决炼厂火炬螺杆压缩机密封故障作为自己研究的一个题目。通过与附近炼厂技术人员进行沟通，了解到该炼厂火炬螺杆压缩机自2018年年初运行以来，经常发生干气密封泄漏故障，给生产和安全

期刊

电视摄像技术中的画面切换技巧探究

摘要：画面切换是电视摄像的关键一坏，观众可以通过画面切换直接感受到摄像效果，这种最初的体验是吸引观众继续看电视节目的关键因素。因此，本文有必要对电视摄像技术中的画面切换作出研究，从而提高画面质量与视觉感受，推动电视摄像技术的进一步发展。　　关键词：电视摄像技术;画面切换;技巧　　电视摄像技术中的画面切换是提高电视节目摄像效果的重要方式，也是改善电视摄像技术应用的重要方法。本文结合电视摄像技术实

期刊

5G技术在广播电视技术领域的应用

摘要：新时期我国广电事业的快速发展，对与之相关的技术依赖程度逐渐加深。实践中为了提高广播电视信号传输效率，丰富其中的技术手段，则需要考虑5G技术的应用，积极开展相应的研究工作予以应对，确保广播电视技术领域发展状况良好性。基于此，本文将对5G技术在广播电视技术领域的应用进行系统阐述。　　关键词：5G技术;广播电视;技术领域;应用;传输效率　　结合广播电视技术领域的实际情况及发展要求，深入探讨5G

期刊

试析新时期广播电视技术维护工作的特点与应对措施

摘要：广播电视媒体是实现信息传播的重要形式，是满足社会公众政治、经济和文化信息需求的重要手段。新时期，广播电视技术获得了快速发展，逐渐进入到智能化和网络化阶段，对广播电视技术维护工作提出了更高的要求。本文将对广播电视技术维护工作重要性进行简要分析，探讨新时期广播电视技术维护工作的特点，并提出新时期提升广播电视技术维护工作的相关策略，希望能够为相关工作提供参考。　　关键词：广播电视技术;维护工作

期刊

基于新时期计算机网络云计算技术研究

摘要：云计算是通过使用Internet提供的虚拟化IT资源作为服务的计算技术。在云计算中，客户根据需要出借IT资源，使客户根据服务负载获得实时支持可扩展性应用并支付相关费用。云计算正在成为可采用的动态伸缩性和虚拟化资源，即通过互联网为许多组织提供使用技术。云计算使用Internet和中央远程服务器维护数据和应用程序。目前电子商务服务能够利用随用随付资源以及它们在IT领域拥有的共享资源。本文研究

期刊

基于NFC移动支付技术在地铁自动售检票系统中的实践解析

摘要：本文主要对NFC移动支付技术相关内容进行分析，着重探究地铁自动售检票中该技术的应用。分析上述内容，有利于提升地铁运行的效率，优化NFC移动支付技术应用效果和质量，改进其中存在的不足，提升公众出行便利性。通过对NFC移动支付技术相关内容分析，以期为相关的工作人员和企业提供借鉴。　　关键词：NFC移动支付技术;地铁自动售检票;手机支付　　一、地铁自动售检票系统运行　　在传统城市轨道交通运行的

期刊

煤气柜冗余安全控制方案

摘要：在实践中，总结了一种煤气柜安全控制方案。该方案根据煤气柜运行特性，设计一种安全有效的PLC控制系统，并依据煤气柜系统的主要技术参数指标对设备进行控制。　　关键词：煤气柜控制系统　　Abstract： A safety control scheme for gas tanks is summarized in practice. The scheme designs a safe and

期刊

探究电力系统配电自动化的常见故障和处理技术

摘要：随着我国电力行业的快速发展，自动化、智能化已经成为电力系统未来发展的主要趋势。在配网自动化系统中，经常会出现小电流接地故障，使得电网运行受到严重的影响。在配电自动化系统运行时，需要对故障进行准确定位，保证系统稳定正常运行，最主要的就是积极分析配电网自动化系统线路故障的不稳定性。加强对电流故障的准确判断，确保电网运行质量全面提升。　　关键词：电力系统;配电自动化;常见故障;处理技术　　在我

期刊

电力系统基建配网项目质量管理优化策略研究

摘要：随着我国各行各业的快速发展，对电力需求不断增多，所以必须要积极加强电力系统基建配网工程施工质量，确保工程施工的整体水平全面提升，满足社会经济发展需要。但在建筑电力系统基建配网项目管理方面还存在许多的问题和不足，导致项目质量管理效果不高。为此在新时期，必须要积极加强人才队伍的培训，提高施工现场管理质量与水平，保证现场管理更加科学高效。　　关键词：电力系统;基建配网项目;质量管理　　配网基建

期刊

一种大数据的高效处理方法研究

与本文相关的学术论文