基于Schema特征的半结构化数据流频繁模式挖掘算法的研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:wyswyswys
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,海量的数据正不断地产生,对数据的分析已经不再是人力所能完成的任务,对应这一问题,人们提出了数据挖掘技术。数据挖掘是从大量的数据中发现隐藏在其中有意义的信息的过程,而频繁模式挖掘则是数据挖掘中的一项重要工作。频繁模式指的是数据中多次重复出现的数据片段,频繁模式挖掘即从大量的数据中找出这些频繁模式。在对频繁模式挖掘的研究中,对半结构化数据挖掘的研究已经有了不小的进展,对数据流挖掘的研究也已经有了一定的基础,然而将两点结合在一起的研究却相对较少。因此如何高效准确地对半结构化数据流进行频繁模式挖掘,成为了本文研究的重点。半结构化数据流同时具有数据流的实时、有序、无限、连续等特点以及半结构化数据独特的树形结构。针对以上这些特点,本文提出了一个基于时间窗口的可以实现对半结构化数据流进行挖掘处理的模型,将半结构化数据流序列化并进行分段,然后使用本文提出的SPrefixTreeISpan算法对每个数据段分别进行挖掘,最后将挖掘结果保存在一个patternTree结构中进行维护。对于半结构化数据流分段造成的挖掘结果不准确的问题,本文提出了一个checkStack结构以及对应的处理策略。本文将XML数据流作为挖掘对象。由于XML数据往往通过XML Schema定义它的数据结构,通过分析Schema,从中提取出了必然孩子关系和必然父亲关系,并对本文算法进行了优化,最终提高了挖掘效率。最后,通过实验证明,本文算法具有良好的挖掘效率,同时基于Schema特征的优化策略是有效的。
其他文献
随着我国特高压直流输电工程的建设,电网一体化特征不断加强,电网送受端之间的耦合日趋紧密,故障对电网运行的影响由局部转为全局,特高压直流输电工程一旦发生故障,会严重影响送受端电网的稳定性。目前针对直流故障后送受端电网的调度控制问题,仍是以传统的仿真模拟分析为主。本文采用数据驱动方法,基于无监督学习算法对特高压直流故障后的送受端电网特征及控制策略进行深入研究。主要研究工作及成果如下:1)提出了基于改进
我国对于过度劳动的研究起步较晚,而且多集中于社会保障和人力资源领域,法学领域对于过度劳动的概念、成因、救济方式等问题的探讨是不够充分的。处于社会主义经济发展的初级阶段,伴随经济高速发展的同时,各种因素也制约着我国劳动者休息权的实现,普遍存在过度劳动的现象。造成这种现象的原因有:一方面,我国的劳动基准制度不够完善,工时制度、休息休假制度、劳动定额制度不够完备;另一方面,现行法律无法对企业的过度用工现
Spark Streaming是大数据批量流式计算系统的最新进展,其核心技术特征是将接收的流式数据按时间顺序切分为多个小批次,并使用批处理计算技术周期性地进行数据处理,以获取近实
自多媒体产生以来,由于其内容丰富、信息量大以及方便快捷的特点受到了对感官交互要求较强的教育、商业等行业的所青睐。传统的多媒体的控制是在PC端实现的,但随着无线传输网
聚类分析是目前机器视觉和数据挖掘领域的热门研究内容之一,近年来大数据分析和挖掘研究热潮的兴起,使得对数据聚类的探索研究受到了极大的关注。聚类分析的目的是将数据集中
目前,时代的进步推动着经济的不断增长,与之而来的,一场无声的市场竞争的硝烟在各企业之间悄然弥漫。在市场经济不断多元化的今天,企业可持续发展的的主旨发生了根本性的变化,同时,企业传统的经济管理模式面临着巨大的挑战。在经济不断发展的背景下,如何提高企业的竞争实力,实现企业可持续发展成为企业关注的主要焦点之一。对于企业来讲,尤其是集团企业,如何加强对资金的管理成为企业发展的重中之重。为实现对集团企业资金
多标签分类方法作为一种重要的机器学习模型被广泛应用到各个领域,尤其是图像注释,因为一幅图片往往会因为人的文化背景和经验的不同被赋予不同的情感语义。因此,多标签分类
在全球气候变化的大环境下,对极地气象的监测具有一定的现实意义。针对南极考察站站区小尺度高时相的积雪覆盖信息,目前还没有成熟的监测手段,本文探索了利用CCD图像进行积雪
现代工业文明的高速发展让人们的物质生活变得愈发富足,然而,工业化使得化石燃料被大量开采使用,既造成了资源的枯竭,也使得环境遭到破坏。不断恶化的环境污染和能源短缺提高了人们对潜在全球危机的认识。为了人类社会的可持续发展,开发和利用可再生绿色能源以及解决环境污染问题已成为人类社会所面临的重大课题。在正在进行的各种项目中,光催化技术被认为是最有前景的技术之一,其特点是直接利用可再生、廉价和丰富的太阳能。
环形平面交叉(以下简称环形平交)是一种常见的城市平面交叉类型,具有安全、美观、环保、交通稳静化的特点,但环形平交交通拥堵问题日益严峻,我国现阶段多采用信号控制的方式,但可能会产生交通流自锁现象和交通安全问题,因此国外在保留常规环形平交优势的基础上,提出了涡轮形环形平交,改善交通拥堵问题,提高交叉口交通安全和运行效率。首先,论文基于环形平交范围内车辆的运行特点对常规环形平交的交通组织方式进行了分析总