嵌入频繁子树挖掘研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:ycw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机与信息技术的发展,人们在日常事务处理和科学研究中积累了大量数据。如何从中提取或“挖掘”用户所需要的信息,是当前信息科学技术领域面临的一大挑战。数据挖掘正是在这样的背景下发展而来。目前,数据挖掘及其应用已经渗透到多个学科,并在人工智能、数据仓库、模式识别、生物信息分析等领域取得了丰硕的成果。频繁模式挖掘是数据挖掘领域中的一个重要问题,其研究范围包括事务、序列、树和图。树作为一种特殊的图结构,有其自身的特点和优势,因此本文选择频繁子树挖掘作为本文的研究方向。论文的主要内容安排如下:首先,本文研究了数据挖掘和频繁模式挖掘的基本概念和性质,并给出了子树模式的相关概念。此外,研究了无序树的结构特点和规范形式,给出了无序树的规范化方法,综合模式增长的子树挖掘策略和无序子树的挖掘策略,提出了无序树的模式增长框架。第二,本文提出用模式增长方法在无序树构成的森林中挖掘嵌入频繁子树.该算法利用规范化方法将无序树化为唯一的表示形式,根据待增长模式的拓扑结构确定其增长点并构造相应的投影库,将挖掘频繁子树模式问题转化为在各投影库中寻找频繁节点的问题。实验表明其具有较高的效率。第三,本文研究了加权支持度的基本概念和性质,比较了传统频繁子树挖掘和加权频繁子树的不同,提出了挖掘加权嵌入频繁子树的新算法。该算法分别以频繁节点和非频繁节点为基础,利用向上模式增长和向下模式增长的方法产生加权频繁子树模式。最后,通过实验对其正确性和有效性进行了验证。
其他文献
近些年来,数据挖掘(Data Mining)技术在医学上已经得到了广泛的应用。本文从手术诊断实际需要出发,研究了决策树挖掘技术在医学诊断中的应用研究问题,并且构建了一个可视化的实
本文在对进化算法的研究基础上,提出了基于遗传编程方法和键合图理论的对非线性系统的辨识方法。本文在简要介绍了进化算法的发展情况后,着重论述了进化算法的一个分枝——遗传编程。本文详细说明了遗传编程的基本算法和操作流程,给出了遗传算子的运行示例。介绍了非线性系统辨识研究目前的发展状况,并结合无线局域网接入点构造问题的例子,对基于遗传编程方法的非线性系统辨识做了理论证明。键合图是一种系统动力学建模方法,本
为解决当前高校资源信息缺乏有效共享、应用缺乏有效集成、用户缺乏统一接口等问题,通过借鉴现有企业资源规划(ERP)和大学资源计划(URP)的一些技术和项目经验,本文提出一种基于
当今社会,市场环境变幻莫测,技术更新突飞猛进,各企业需要不断完善优化自身的业务运营模式以便在竞争激烈的市场环境中赢得主动。“企业流程”成为各企业关注的热点,通过流程再造可以减少企业的成本消耗,树立企业的竞争优势,增强企业的核心竞争力,使企业在激烈的竞争中立于不败之地。工作流仿真技术的应用,有助于各企业改进自身的业务流程,提高企业的工作效率。本文首先对工作流和Petri网的相关理论进行了概述,重点介
无线通信网络和移动设备的出现与普及促进了移动计算的发展。由于移动计算不同于传统的分布式计算环境,有其鲜明的特点:移动性、断接性、弱连接性、资源的局限性、网络通信的多
随着信息技术的飞速发展,基于TCP/IP协议的互联网得到广泛的应用,其影响已经渗透到了我们生活的各个方面。TCP/IP网络体系结构的成功来源于其开放性与简单性,而这种开放性与简单
随着数据大爆炸时代的到来,大数据业已成为信息领域的一大研究热点。目前已有不少云计算环境下基于MapReduce模型的分布式处理系统可以有效提供高效的大数据查询处理方案(例
鉴别协议在网络安全中占有很重要的地位,而对于鉴别协议的设计和分析都是很困难的。如果通过验证已有的攻击手段来分析鉴别协议,最主要的问题是我们无法穷尽所有的攻击类型。
语音交互是人机交互最自然的方式,作为其基础的语音识别技术一直是计算机领域的热门研究议题,语音识别过程包括语音信号预处理、声学特征提取、特征向量降维处理和基于统计模
上个世纪90年代由于在计算机科学中引入了量子力学的一些性质,一些新的有强大计算能力的量子算法被提出,其中最为著名的就是Grover算法和Shor算法。这两个算法充分体现了量子