面向大数据测试的半结构及非结构化数据生成器的设计与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:zhenlijinping
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据平台的发展,大数据平台的性能测试对半结构及非结构化数据的复杂度和多样性要求也越来越高。现有数据生成器无法同时支持生成XML、JSON和Web服务器日志格式的数据,且无法同时针对常用的测试场景生成半结构化与非结构化数据;而且已有的XML数据生成器和JSON数据生成器生成数据集的规模以及生成速率无法满足大数据平台性能测试的需求。因此设计并实现一款能够实现快速数据生成的半结构化及非结构化数据生成器,对于保障大数据平台的性能测试的自动化具有重要的意义。针对以上问题,通过对面向大数据测试的半结构及非结构化数据生成技术进行相关研究,设计了数据生成器的系统架构,由信息输入模块、半结构化数据模式生成模块、并行数据生成模块、非结构化数据生成模块以及输出处理模块五个模块组成。通过分析半结构化数据的结构关系、约束关系与依赖关系,设计了三种不同格式的半结构化数据模式的方案:XML数据模式、JSON数据模式以及Web服务器日志数据模式;通过读取用户定义的信息然后生成对应的半结构化数据模式,指导并规范半结构化数据的生成;为了提高生成器在生成大规模数据集时的生成速率,研究了基于计算引用的数据并行生成技术,设计了半结构化数据的并行生成方案,实现快速生成海量规模的数据集;针对测试数据集中常见的约束关系和依赖关系,能够直接生成满足约束和依赖关系的半结构化数据;能够生成数据集,且该数据集中存在随着时间推移而发生变化的半结构化数据;最后针对大数据平台的性能测试对非结构化数据集的需求,能够实现根据少量文本文件生成大规模非结构化数据。通过实验证明,设计实现的数据生成器能够根据用户定义的信息,生成大规模的半结构及非结构化数据集。在生成XML和JSON两种格式半结构化数据时,生成速率与生成用时与现有的数据生成器相比,在性能上有一定的提升。
其他文献
课程标准是有效实施教学的前提,也是指导教师如何把握课堂教学的依据,其中教材是实现课标要求的载体。进行教学设计首要任务就是研读教材,而研读的关键在于重难点的把握。《秒的认识》一课的重点难点确定为建立"1秒"、"1分"的时间观念,如何建立?本文从三个不同的体验中去"启蒙"、"发展"、"强化"时间观念,从而突破教学的重点难点。
会议
随着计算机软件在当今信息社会中的普及,软件的安全和版权保护问题愈来愈受到人们的重视。二进制代码是应用软件的重要发布形式之一,因而二进制代码和源代码匹配在应对这两个问题中发挥着重要作用,例如使用源代码来搜索已发布软件中的漏洞、对二进制代码进行溯源以检查其是否违背开源协议。目前,一些方法已经被提出来用于解决二进制代码和源代码匹配问题,这些方法通常是通过某些相似性约束来共同学习二者的嵌入(Embeddi
学位
遥感图像目标检测是遥感图像领域的一个重要研究方向,广泛应用于军事侦察和民用监控领域,其关键研究问题是如何提高遥感图像分类和定位的精度。然而,相对于自然图像,遥感图像目标存在排列密集、方向角度多、小目标数量大等特殊问题,利用通用的目标检测模型效果并不理想。因此,研究有效的面向遥感图像的目标检测方法,提升目标检测器的精度,具有重要的实际意义。针对遥感图像目标检测的上述问题,结合检测框设计和深度学习技术
学位
在生物学领域中,常见问题是利用知识网络中已有的信息来预测新的关联,即生物链接预测问题。随着生物学领域的相关研究快速发展,大量的生物学相关信息被发现和研究,对于这些不同类别、不同特征的生物实体,构建生物知识图谱这一方式能够有效地组织专业领域内知识。针对生物领域知识图谱嵌入来进行链接预测这一领域面临的两个问题,即如何将生物实体结构的特殊性与知识图谱嵌入相结合,以及如何对含有结构信息的实体嵌入进行特征提
学位
近年来随着移动互联网技术的发展和数据传输带宽不断增大,有利于信息朝多元化发展,图片、视频成为了人们之间社交信息传播的新媒介。其中短视频时间跨度短,但具有鲜明的主题信息,可以被方便地拍摄并即时分享,易广泛传播并且数量巨大。短视频平台的标签推荐任务生成的标签有助于对不同短视频的粗粒度分类,同时也有助于帮助用户浏览其更加感兴趣的内容,具有重大的研究意义。短视频标签推荐任务中本质上是从视频到文本的训练任务
学位
现有的管道破损探查主要是依赖人工,这种方法耗时且成本高昂。近年来,带有摄像头的管道检测机器人开始应用到地下排水管道检测中,并能够自动采集相关的视频信息。利用视频帧进行实例分割能够识别出管道内部破损区域,但无法判断破损的严重程度。因此,如何利用图像处理和深度学习技术分析管道机器人拍摄视频的深度信息并对破损进行定位和严重程度评估,具有重要的理论意义和应用价值。管道机器人采集的视频帧缺少深度信息,基于图
学位
随着信息技术的不断发展,智能安防系统从政府、高科技企业逐渐向中小型企业发展,智能门禁系统作为其中重要部分,开始应用在更多场景。特别是近年来物联网技术快速发展,为面向企业园区的智能门禁系统带来发展机会。在智能门禁系统向中小企业园区拓展的过程中,改造或者安装新门禁系统的成本不可忽视。因此,新形势下的智能门禁系统,需要具有低成本、低功耗、使用方便、安全可靠的特点。门禁终端是门禁系统的核心,基本功能是验证
学位
近年来,移动互联网技术与共享经济的发展和以智能手机为代表的智能终端设备的普及与应用推动了空间众包的出现和发展。与传统基于Web众包相同,空间众包具有工人、用户和平台三者。用户是众包任务的发起者,工人是任务实际完成者,平台连接工人和用户。不同的是,空间众包处理与位置相关的任务,众包工人需要移动到用户处来为用户提供众包服务。现有空间众包研究在建模上往往忽略了工人与用户的动态性和众包应用的经济性,在任务
学位
近年来,随着深度学习研究与技术的迅猛发展,有标签分类任务在很多领域已经取得了巨大成功,例如在图像分类、目标检测、文本识别、语音识别、视频识别等领域。性能优异的分类模型的训练往往需要借助大量有标签数据来完成。然而,在一些领域,获取有标签数据是极其困难甚至不可能的任务,比如医疗影像、军工数据等。这种训练样本稀缺的机器学习场景就是小样本学习,其目标是在当前任务中仅使用有限数量的训练数据来训练得到性能优异
学位
新时代推动农村教育高质量发展,既是实现高质量教育公平的核心内容,也是适应我国社会主要矛盾变化的客观要求;既是培育高素质高技能乡村振兴人才的主要渠道,也是促进城乡共同富裕的基础前提。以新发展理念为引领,基于大农村教育观和宏观教育质量观视阈来衡量农村教育高质量发展,则以其发展目标是否提质保量、发展动力是否创新驱动、发展形态是否协调均衡和发展指向是否开放共享为主要指标。新时代推进农村教育高质量发展的基本
期刊