树型数据流中内置无序闭子树挖掘算法

来源 :郑州大学 | 被引量 : 0次 | 上传用户:ssgriian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,流数据挖掘是数据挖掘中具有挑战性的问题之一。实时应用中通常会形成大量的数据流,比如传感网络中的传感数据,web中的web记录等等。传统“先存储后处理”的数据挖掘技术不能解决流数据速度快,不能重复扫描,数据量大等特性,对于数据流数据挖掘已经越来越力不从心。而树型数据流是数据流中应用最广的领域之一,因此在树型数据流中挖掘频繁的子树是非常有用的。候选子树数目和支持度计算效率一直是影响树型数据流中频繁子树挖掘的主要因素。本文首先从理论上提出线性扩展策略,该策略可以简单确定待插入结点的位置和新候选子树的二项编码;然后提出数据结构全属向导LTPS,基于该数据结构提出广度线性扩展算法DFLinApri,该算法可枚举树型数据流中内置无序闭子树,并可有效计算候选子树的支持度,但该算法产生冗余闭子树;最后提出基于数据结构部属向导LTD的算法深度线性扩展算法BFLinApri,算法BFLinApri对算法DFLinApri进行改进,消除冗余。本文实验分别采用合成数据集F5、D10和真实数据集cslogs。实验结果表明本文的两个算法在F5和D10这两个不同规模的数据集上时间效率比PrefixTreeISpan和TreeMine都有明显提高,产生的闭子树数目比PrefixTreeISpan产生的频繁子树数目明显减少。在数据集cslogs上BFLinApri的耗时是TreeMiner的1/2。
其他文献
电视的普及,带动了电视广告的飞速发展。广告已成为各个电视台收入的主要来源。为了在竞争日益激烈的广告行业中立于不败之地,电视台对电子商务平台的需求越来越强烈。电视广
随着网络以及多媒体技术的迅速发展,涌现出了大量的数字视频,并呈现出一种急剧增加的趋势。与此同时,也引发了许多新的技术,包括视频存档、编目、索引以及有效存取等。更多的人们
随着计算机技术的快速发展,仿真技术越来越多地受到人们的重视,尤其在虚拟现实领域,为了使虚拟场景更加逼真和自然,对影响虚拟场景沉浸感、逼真度的植物的仿真也越来越多。自
近100多年来全球气候变化日益剧烈,各种天灾接踵而至,夏季旱涝灾害是其中重要灾害之一。长江中下游梅雨期资料对度量当地夏季旱涝是一项主要指标,因此对梅雨总量的预测研究对
随着XML在各行各业的广泛应用,XML已经成为了事实上的一种通用数据表示和交换的标准,纯XML格式在移动数据库中倍受青睐。然而,在移动环境中,引入主动机制对移动数据库的性能
当前,随着分布式系统越来越广泛的应用,其高可用性的需求也逐渐增强。作为实现高可用性的关键技术,分布式系统中失效检测的实现逐渐成为学术界的一个研究热点。失效检测技术
中等职业学校计算机实训教学的目标是让职业学校计算机专业学生获得系统的专业技能训练,巩固和加强所学专业理论知识,培养学生动手操作能力和综合运用知识能力。实训教学是计
随着信息技术时代的发展和科学技术的进步,用于学术研究的文献量和各种网络信息量越来越多,如何在海量信息中提炼出学科领域发展方向和研究热点显得尤为重要,特别是学者们对
当今社会是信息化的社会,信息量急剧.的膨胀,如何从大量数据中用非平凡的方法发现知识,已经成为信息产业界广泛关注的问题。数据挖掘可以从大量的信息中发现有用的信息和知识
随着现在信息技术的日新月异,检测技术在工业、农业、教育、医疗、企业、军事、有着广泛和重要的应用。但是由于信息技术不可避免的存在某种缺陷,目前很多检测问题存在无法测