国产全文数据库测试指标及测试方法研究

来源 :中国新通信·理论版 | 被引量 : 0次 | 上传用户:qiufeng115
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:随着大数据的发展,对数据存储、数据查询响应时间的要求越来越高,MPP数据库(大规模并行处理数据库)、全文数据库、图数据库等成为大数据应用所需产品。本文针对国产全文数据库提出一套从全文数据库功能、接口、可管理性、可靠性、可扩展性和性能进行客观评价的测评指标及其测试方法,为选用国产化全文数据库提供一套依据,为指导产品的研发和性能的不断改进提供指导意义。
  关键词:大数据;国产化;全文数据库;测评指标
  引言
  随着当前对数据挖掘、数据分析的需求越来越大,对数据规模、数据查询响应速度等的要求越来越高。从数据结构来看,数据主要分为结构化数据和非结构化数据,本文主要针对非结构化数据的存储与检索进行研究。对于非结构数据的检索,基于Hbase[1]的设计,比较占空间,硬件配置要求比较高,且在ID超过200之后,查询性能直线下降,很难符合线上的要求。ElasticSearch[2](以下简称ES)基于Lunce,优点是搜索速度快,方便建立索引。本文针对基于ES设计的全文数据库进行研究。
  当涉及到选购全文数据库时,对其功能、接口、可管理性、可靠性、可扩展性、性能的客观评价还缺少相应的依据。因此,建立一种合理、适用性强的全文数据库测评指标及其测试方法意义重大,帮助用户评估和选型全文数据库的同时,对产品性能的不断改进有着重要的意义。本文依据全文数据库的特点,提出了一套关于国产全文数据库功能、接口、可管理性、可靠性、可扩展性、性能的测评指标,为广大用户选用和评价国产全文数据库提供方法。
  一、全文数据库简介
  (一)数据、检索的分类
  我们生活中的数据总体分为两种:结构化数据 和非结构化数据。
  结构化数据: 指具有固定格式或有限长度的数据,如数据库,元数据等;非结构化数据: 指不定长或无固定格式的数据,如邮件,word文档等。
  按照数据的分类,搜索也分为两种:对结构化数据的搜索 :如对数据库的搜索,用SQL语句。再如对元数据的搜索,如利用windows搜索对文件名,类型,修改时间进行搜索等。对非结构化数据的搜索:如利用windows的搜索也可以搜索文件内容,如用Google和百度可以搜索大量内容数据。
  (二) ES简介
  1 ES架构及与传统数据库的区别
  ES是一款分布式全文检索框架,底层基于Lucene实现,其架构如图1所示。
  ES与传统数据的区别主要有:
  1)结构名称不同:一个ES集群可以包含多个索引,每个索引又包含了很多类型,类型中包含了很多文档,每个文档使用JSON 式存储数据,包含了很多字段。
  2)ES采用分布式搜索,传统数据库进行遍历式搜索。
  3)ES采用倒排索引,传统数据库采用B+树索引。
  2 ES基本概念
  集群:指的是一个或者多个节点(服务器)的集合,这些节点会一起保存数据,并且会在所有的节点上提供联合索引和搜索的功能。一个集群通常会被一个名字所标示,必须说明的是,确保不要在不同的环境中使用相同的集群名称。否则节点可能会加入错误的集群。
  节点:指的是一个集群中的单个机器,它存储数据、并且参与集群的索引和搜索功能,实际上就像一个集群。一个节点也是被一个名字所标示,其默认的名称是在节点启动时候的分配给他的唯一标示符(UUID)。一个节点可以通过一个集群名加入某一个集群。默认情况下,每一个节点都会加入名为ES的集群中。
  索引:指的是一系列文档的集合,这些文档有着共同的特性和特征。
  类型:在索引中,可以定义一种或者多种类型。一般而言,一种类型定义是为了给一个拥有共同的元素的集合。
  文档:可以被索引的基本单元。例如,你可以拥有一个针对单个消费者的文档,另一个用于单个订单信息的文档。该文档以JSON(JavaScript Object Notation)表示,JOSN是一种无处不在的互联网数据的交换格式。
  分片&副本:一个索引中可能存放非常多的数据,这些数据甚至有可能超越一个单节点机器的资源限制。例如一个索引中如果有十亿个文档的话将会占用多达1Tb的空间,而这些是无法从单个节点提供搜索请求的,因为这将十分缓慢。想要解决这个问题,ES提供了可以将你的索引分片的能力,这些分片成为切片。每当你创建一个索引的时候,你可以十分轻松的制定这个索引的分片个数。每个分片就是一个功能完整且独立的索引,当然,他们可以分布在集群的任意一个节点上。
  二、 测评指标及方法
  (一) 测试指标
  2017年9月至2018年1月,项目组对阿里云、浪潮、拓尔思、星环科技等国内7个厂商的全文数据库进行了测试,并对数据库的业务应用进行了进一步的分析,为更加规范地开展未来全文数据库测试及符合性评价,依据GB/T16260《软件工程产品质量》和GB/T20273《信息安全技术数据库管理系统安全技术要求》,结合全文数据库自身的特点,制定了全文数据库产品的功能、接口、可管理性、可靠性、可扩展性、性能的测评指标体系,如图3所示。在实际测评工作中,用户可根据实际使用情况合理裁剪,以满足产品测试的个性化要求。
  (1)功能指標:主要评价全文数据库应具有的基本功能。指标包括支持对二维表的管理,类SQL的查询语法,支持相关度排序,词库可配置,地理位置检索功能,支持时间、IP、数值、全文、地理经纬度、二进制等数据类型,支持算术、关系、逻辑等操作符类型,支持等值和区间两种分区计算,支持SQL方式进行表的管理、数据查询、二进制检索。
  (2)接口指标:评价全文数据库的接口支持情况。指标包括支持SQL检索语法、支持Java和C加载接口、提供Shell交互接口。   (3)可管理性指标:评价全文数据库的基本管理能力。指标包括索引/表管理、用户权限管理、集群状态监控。
  (4)可靠性指标:评价全文数据库是否支持副本策略,且不存在单点故障。
  (5)可扩展性指标:评价全文数据库线性扩展的能力。
  (6)性能指标:主要评价全文数据库的业务性能。指标包括数据加载、热数据查询、并发查询。
  (二)功能、接口、可管理性、可靠性、可扩展性测试方法
  对于功能、接口、可管理性、可靠性、可扩展性的测试指标的测试,测试方法及流程可概括为三方面:
  (1)生成数据阶段:用于全文数据库功能、接口、可管理性、可靠性、可扩展性测试的数据准备;
  (2)生成测试语句阶段:用于功能、接口、可管理性、可靠性、可扩展性测试;
  (3)输出结果及分析:查看输出结果与预期结果的符合性。
  (三) 性能测试方法
  1 测试数据设计
  测试数据采用通讯邮件数据,以.json文件进行存储,包括了14个常用业务字段类型,具体见表1所示。
  2 数据加载测试方法
  数据加载测试方法同样可归纳为三个方面:
  (1)生成数据:根据设计的场景,搭建数据生成环境并生成200亿条数据;
  (2)数据记载:执行数据加载语句,直至索引建立完毕;
  (3)记录数据加载速率并核实入库数据量。
  3 热数据查询、并发查询测试方法
  (一)热数据查询
  a.精确查询:基于入库的邮件数据,分别对字符串、IP类型、数值三种类型的数据进行精确查询;
  b.全文查询:基于入库的邮件数据,分别对关键字、通配符、短语进行查询;
  c.相关度查询:基于入库的邮件数据,进行相关度查询;
  d.多个关键词查询;
  e.聚合函数查询;
  f.表达式查询;
  (二)并发查询
  准备查询语句执行并发查询,查看结果返回时间,例如:
  Select * from d6 where subject=full_text("经理") limit 1000
  三、结束语
  本文从全文数据库的应用出发角度,提出了一套对其功能、接口、可管理性、可靠性、可擴展性、性能的客观评价的依据和测试方法,并针对数据加载、热数据查询、并发查询进行了测试,验证了测试方法的可行性。实际测评工作中,用户可根据实际使用情况合理裁剪,以满足产品测试的个性化要求。随着全文数据库应用的越来越广泛,还需在今后的大量实验和总结的基础上对性能测试做进一步的研究。
  参考文献:
  [1] 陈栋波,高跃明.基于HBase的海量文件的检索方案研究,设计研究与应用,2016
  [2] 杨丽萍,张希翔,孟椿智,谢瑞浩.基于Elasticsearch的大数据搜索引擎在电力企业的应用研究,数字技术与应用,2017
  作者简介:
  杨美钰(1985-),女,山西运城人,桂林电子科技大学硕士,工程师。从事军用软件试验鉴定与研究工作。
  付玉涛(1982-),女,山东聊城人,北京邮电大学硕士,工程师。从事军用软件试验鉴定与研究工作。
其他文献
摘 要:超声波焊接工艺以其生产效率高、结合强度好的特点,被广泛地应用在汽车、医疗、电子等方面。本文对超声波焊接参数在电源连接器生产应用中常见的保持力问题进行研究,利用理论分析及正交试验验证的方法,寻找适合该产品的最佳参数,使电源连接器在超声波焊接后满足了保持力要求与外观要求。  关键词:超声波焊接;电源连接器;参数;保持力  一、引言  随着生活水平的不断提升,人民对物质生活的要求越来越高,电子
期刊
摘 要:目前在我国油田企业改革不断深化的前提下,国内的各大油田为油田的挖潜增效不断努力,而实现油田信息化可以极大地提升我国油田生产作业流程的规范,并不断提升自设的技术水平实现油田经济效益的最大化。本文基于油田信息化关键技术及其应用展开论述。  关键词:油田信息化;关键技术;应用  一、我国油田信息化关键技术的内容  (一)油田设置电子巡井  目前,在我国油田信息化关键技术的不断发展的前提下,各大
期刊
摘 要:随着科学技术的迅速发展,广播电视监测机房已实现全天不间断的面向数字电视、广播质量等内容的监测,为保证监测机房的平稳运行,本文通过设备管理以及日常维护两方面进行深度探析,以期促进机房设备的安全运行。  关键词:广播电视;机房设备监测;技术维护管理  引言:监测机房作为广播电视监测单位的核心部分,直接影响广播电视节目的播出质量,虽然设备水平在稳定提高,但仍因管理不当或其他因素导致设备出现故障
期刊
摘 要:信息技术的不断发展进步,推动了城市的数字化转型,“智慧城市”的概念也随之提出,在这种新型城市治理模式中,多方参与的互助治理模式很难有效的相互协调,成为城市治理转型的一大困难。而将区块链去中心化的理念引入到城市治理中,寻找城市治理新方向就成为转型工作中值得探讨的问题。区块链技术能够帮助建立城市治理时各主体的信任机制,将数据透明化,责任权利落实到人和物,降低治理成本,提升治理效率。  关键词
期刊
摘 要:针对目前大多数电站对作业人员进行监控与管理过程中出现的问题,本文首先对当前主流的室内定位技术进行分析,提出了将UWB定位技术作为电站内部的定位手段;其次为了将UWB定位技术与电站管理系统结合,对电站管理系统进行了详细的设计;最后开发了基于UWB定位技术的电站管理系统,有效地实现了电站的智能化与信息化管理。  关键词:室内定位技术;电站管理系统;系统设计  一、引言  随着社会的不断发展和
期刊
摘 要:现在,中国的电子信息技术正在快速升级,并已成为近年来中国的主要發展产业之一。而信息技术的长期发展在某种程度上取决电子技术、计算网络技术发展情况。因此,加快计算机网络技术的研究,可为全球电子信息发展提供更好服务。本文探讨了电子信息工程的主要特征及计算机网络技术应用作用。  关键词:电子信息工程;网络技术;信息传递;信息技术  前言:如今进入信息社会的发展阶段,为满足现代信息工程建设的需要,
期刊
摘 要:“八纵八横”国家干线光缆网的建成彻底改变了我国长途通信的落后局面,但因使用年限都在20年以上了,衰耗增大,断点增多,对国家信息网的运行存在较大的风险。高铁“八纵八横”工程建设全面展开,沿高铁槽道同步快速部署干线光缆网络,具有建设费用少、工期短、无外界干扰、路由稳定、安全可靠等特点。笔者就高铁槽道干线光缆快速部署与维护管理新课题进行深入研究。  关键词:干线光缆网 ; 八纵八横 ; 高速铁
期刊
摘 要:随着通信技术和社会的发展,人们对通信工程项目的要求也越来越高,而一个完整的通信工程项目的流程又是及其复杂和繁琐的,正因如此,在通信工程项目中运用网络优化技术很有必要,做到既要保证项目质量,又要加快工作进程。本文将着重于分析通信工程中可能存在改进的点,结合网络优化技术来给出合理的优化解。  关键词:通信工程;项目;网络;优化;技术  现代化的工程建设体系中,通信工程项目,是非常重要的组成部
期刊
摘 要:当今社会被计算机和互联网所覆盖,人们对互联网和计算机表现出强烈的依赖性,无论是在工作还是生活中,它已经成为人们生活和工作离不开的工具和亲密的“朋友”。不仅如此,计算机和互联网对我国经济的发展、对中小企业的发展、对教育文化等各行各业都有着强烈的影响。然而,计算机网络安全所带来的隐患和危害也不容忽视,网络欺诈以及网络黑客攻击等导致用户受到不同程度的威胁。本文针对计算机网络的安全性和隐藏的风险
期刊
摘 要:安全稳定的供电是现代社会发展的重要标志之一,电力供应取决于各种发电设备和输电线网的正常运行。10kV配电线路应用广、效率高,是全国电网运行的重要组成部分,在供电中所起的作用越来越大。然而,10kV配电线路在运行过程中,如果出现设备故障,将直接影响居民和企业的正常用电,我们要高度重视、积极应对,做好10kV配电线路和设备的养护工作。本文分析了10kV配电线路常见原因和故障分析以及维护保养的
期刊