论文部分内容阅读
摘 要:本文提供了一种方法,在数据存储的同时依据业务规则进行数据索引的创建,建立索引工作机制,该机制确保索引数据本身安全、高可用性;客户端依据已创建的索引,利用SQL引擎进行可视化高效查询、展示;创建资源管理模块和和任务处理模块,资源管理模块实现集群内资源的管理、调度,任务处理模块实现所有任务的资源申请、任务切分、结果合并、任务状态维护、结果输出,这样保证了任务执行的快速、高效。
关键词:索引;Hadoop;内存缓冲;并行计算;任务处理
引言
随着平安城市、智慧城市等大型项目的在各地的广泛开展,数据集聚、数据融合进一步发展,需要处理的数据量达到了TB级、PB级,大数据量的处理产生了一系列现实问题,原先关系型数据库在面对如此大的数据量时,其技术架构、处理能力、处理方式等越来越不能满足用户需求[1-2]。
云计算、大数据技术的发展给海量数据的处理提供了很好的解决途径,Hadoop框架体系更是运用并行计算、分布式存储(HDFS)的方式实现了大数据量的存储和计算。但是,分布式存储(HDFS)的数据很难直接被进行处理(不支持结构化查询语句(SQL)直接进行处理),且计算任务最终都需转化成MapReduce框架来执行,其管理节点任务重、效率低、易导致单点故障。如何快速、便捷的对海量数据进行处理?如何在提高任务处理效率的同时,增加系统的可用性成为亟待解决的问题[3]。
一、大数据平台
大数据平台采用目前主流的hadoop技术,通过hadoop分布式文件系统(HDFS)进行数据分布存储;由于Hbase列式存储的操作不太符合结构化数据库操作的程序员,便对大数据平台的架构进行阐述:
a)入库索引的创建:针对业务场景,选取高价值、有意义、时间顺序的属性组成联合索引。每个数据节点上采用多线程创建索引;
b)每个数据节点上设置内存缓冲区,存储已创建的索引,当索引达到一定量时,将历史索引数据和不被经常使用索引记录通过退出机制固化到磁盘,并进行分布式存储(HDFS)以保证可用性,同时为了提高数据高可用性;
c)SQL引擎针对索引实现实时、快速查询;
d)管理节点将资源管理模块和任务处理模块分开,资源管理实现集群内资源的管理、调度,任务处理模块实现所有任务的资源申请、任务切分、结果合并、任务状态维护、结果输出。
二、索引创建
在分布式文件系统(HDFS)的基础上,在数据节点上创建进程,并进行数据索引的创建。该索引基于具体的业务进行创建,直接服务于业务应用,在数据节点进行数据存储的同时利用已有的规则构建索引,数据存储在磁盘中,产生的元数据存储在管理节点上,索引先存储在内存中,内存存储模块保持一定量的内存大小,为了保证数据的高可用性,在硬盘中同时进行固化存储,以分布式文件的形式进行存储,进行多副本存储,索引文件存入磁盘工作机制以内存存储区大小、索引形成先后顺序和索引文件使用程度参数为依据进行固化,将最先形成、使用程度最低的索引先固化到磁盘,这样应用最多的业务数据索引将始终保存在内存区,便于快速使用。
用户提交查询请求,比如说某个模糊的车辆车牌信息,控制模块对输入的查询请求信息进行分析,控制模块首先对查询条件进行自动语义识别,从内存索引中进行查找,如果内存索引查找不到,即到磁盘索引存储区进行查找,通过查找到的索引去磁盘中获得原始数据,并将数据返回、呈现给用户。
三、处理流程
资源管理节点实现对计算模块资源的管理,每一个任务首先被任务处理模块进行接收,任务处理模块将根据任务的优先级、难易程度情况向资源管理模块申请资源,资源管理模块依据调度算法给出具体的任务处理资源,返回给任务处理模块,任务处理模块负责将任务传递给给定的资源处理模块,并同时负责任务的切分、处理、归并、失败任务重启等功能,最终完成任务的执行。
S1:接收待存储数据。
数据节点接收待存储的数据,所接收的数据可来自任何数据源,涵盖结构化、半结构化、非结构化多种数据类型。
S2:存储模块,实现待存储数据的存储及索引的建立。
数据节点实现对待存储数据的存储,同时在HDFS的基础上运用组件构建索引,索引面向业务应用场景建立,选取有价值的、时间先后顺序进行构建。
S3:檢索模块,实现基于创建索引的SQL操作。
索引创建完成后,即可针对索引进行检索。运用结构化查询组件实现SQL操作并进行数据结构化展示。
S4:处理模块,实现任务的快速、高效处理。
管理节点将资源管理和任务处理主要功能模块分开,分为资源管理模块和任务处理模块,资源管理模块实现资源的分配、资源状态监测、资源回收功能,任务处理模块实现资源的申请、利用功能,解决了原管理节点任务重、效率低、易导致宕机的问题。
四、总结
某市交通管理部门利用上述方法构建交通大数据稽查系统,实现亿条数据模糊检索毫秒级响应,为交通在线查询、交通布控、态势把握等业务应用有效快速的开展提供了有力的技术支撑。
参考文献:
[1]唐云善,杨志.一种高效的大数据实时性解决方案[J].计算机与数字工程,2014,294(42):678.
[2]大数据时代的特点[OL].<http://blog.sina.com.cn/s/blog_9010d7d20101c2gz.html.>.
[3]许吴环.大数据的特点及处理平台比较[J].决策与信息,2017,459(1):103.
作者简介:
张凯(1983-),男,安徽合肥人,讯飞智元信息科技有限公司,硕士研究生,研究方向:大数据、云计算、智慧城市。
关键词:索引;Hadoop;内存缓冲;并行计算;任务处理
引言
随着平安城市、智慧城市等大型项目的在各地的广泛开展,数据集聚、数据融合进一步发展,需要处理的数据量达到了TB级、PB级,大数据量的处理产生了一系列现实问题,原先关系型数据库在面对如此大的数据量时,其技术架构、处理能力、处理方式等越来越不能满足用户需求[1-2]。
云计算、大数据技术的发展给海量数据的处理提供了很好的解决途径,Hadoop框架体系更是运用并行计算、分布式存储(HDFS)的方式实现了大数据量的存储和计算。但是,分布式存储(HDFS)的数据很难直接被进行处理(不支持结构化查询语句(SQL)直接进行处理),且计算任务最终都需转化成MapReduce框架来执行,其管理节点任务重、效率低、易导致单点故障。如何快速、便捷的对海量数据进行处理?如何在提高任务处理效率的同时,增加系统的可用性成为亟待解决的问题[3]。
一、大数据平台
大数据平台采用目前主流的hadoop技术,通过hadoop分布式文件系统(HDFS)进行数据分布存储;由于Hbase列式存储的操作不太符合结构化数据库操作的程序员,便对大数据平台的架构进行阐述:
a)入库索引的创建:针对业务场景,选取高价值、有意义、时间顺序的属性组成联合索引。每个数据节点上采用多线程创建索引;
b)每个数据节点上设置内存缓冲区,存储已创建的索引,当索引达到一定量时,将历史索引数据和不被经常使用索引记录通过退出机制固化到磁盘,并进行分布式存储(HDFS)以保证可用性,同时为了提高数据高可用性;
c)SQL引擎针对索引实现实时、快速查询;
d)管理节点将资源管理模块和任务处理模块分开,资源管理实现集群内资源的管理、调度,任务处理模块实现所有任务的资源申请、任务切分、结果合并、任务状态维护、结果输出。
二、索引创建
在分布式文件系统(HDFS)的基础上,在数据节点上创建进程,并进行数据索引的创建。该索引基于具体的业务进行创建,直接服务于业务应用,在数据节点进行数据存储的同时利用已有的规则构建索引,数据存储在磁盘中,产生的元数据存储在管理节点上,索引先存储在内存中,内存存储模块保持一定量的内存大小,为了保证数据的高可用性,在硬盘中同时进行固化存储,以分布式文件的形式进行存储,进行多副本存储,索引文件存入磁盘工作机制以内存存储区大小、索引形成先后顺序和索引文件使用程度参数为依据进行固化,将最先形成、使用程度最低的索引先固化到磁盘,这样应用最多的业务数据索引将始终保存在内存区,便于快速使用。
用户提交查询请求,比如说某个模糊的车辆车牌信息,控制模块对输入的查询请求信息进行分析,控制模块首先对查询条件进行自动语义识别,从内存索引中进行查找,如果内存索引查找不到,即到磁盘索引存储区进行查找,通过查找到的索引去磁盘中获得原始数据,并将数据返回、呈现给用户。
三、处理流程
资源管理节点实现对计算模块资源的管理,每一个任务首先被任务处理模块进行接收,任务处理模块将根据任务的优先级、难易程度情况向资源管理模块申请资源,资源管理模块依据调度算法给出具体的任务处理资源,返回给任务处理模块,任务处理模块负责将任务传递给给定的资源处理模块,并同时负责任务的切分、处理、归并、失败任务重启等功能,最终完成任务的执行。
S1:接收待存储数据。
数据节点接收待存储的数据,所接收的数据可来自任何数据源,涵盖结构化、半结构化、非结构化多种数据类型。
S2:存储模块,实现待存储数据的存储及索引的建立。
数据节点实现对待存储数据的存储,同时在HDFS的基础上运用组件构建索引,索引面向业务应用场景建立,选取有价值的、时间先后顺序进行构建。
S3:檢索模块,实现基于创建索引的SQL操作。
索引创建完成后,即可针对索引进行检索。运用结构化查询组件实现SQL操作并进行数据结构化展示。
S4:处理模块,实现任务的快速、高效处理。
管理节点将资源管理和任务处理主要功能模块分开,分为资源管理模块和任务处理模块,资源管理模块实现资源的分配、资源状态监测、资源回收功能,任务处理模块实现资源的申请、利用功能,解决了原管理节点任务重、效率低、易导致宕机的问题。
四、总结
某市交通管理部门利用上述方法构建交通大数据稽查系统,实现亿条数据模糊检索毫秒级响应,为交通在线查询、交通布控、态势把握等业务应用有效快速的开展提供了有力的技术支撑。
参考文献:
[1]唐云善,杨志.一种高效的大数据实时性解决方案[J].计算机与数字工程,2014,294(42):678.
[2]大数据时代的特点[OL].<http://blog.sina.com.cn/s/blog_9010d7d20101c2gz.html.>.
[3]许吴环.大数据的特点及处理平台比较[J].决策与信息,2017,459(1):103.
作者简介:
张凯(1983-),男,安徽合肥人,讯飞智元信息科技有限公司,硕士研究生,研究方向:大数据、云计算、智慧城市。