一种新的频繁子树挖掘算法研究

来源 :云南师范大学 | 被引量 : 0次 | 上传用户:wangzhijun9999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息的爆炸式增长,人们日益变得在信息垃圾当中不知所措。如何从这些无用的信息中挖掘出对我们有用的知识是近几十年来数据挖掘的主要研究目的。最初的数据挖掘的对象是结构化的关系表和事务数据库。到目前为止,该领域已经有了长足的发展。然而,随着数据挖掘应用领域的不断扩大,如何从半结构化和非结构化数据当中发现知识呢?这是目前研究人员所面临的技术难题,因为传统的数据挖掘算法不能有效的应用到这些领域中来。图结构能够模拟几乎所有的事物之间的联系,它也能应用到上述半结构化和非结构化的数据挖掘中来。基于图的数据挖掘已成为数据挖掘中的一个新的研究热点。基于图的数据挖掘有广阔的应用空间,如在We挖掘、空间数据挖掘、生物信息学中蛋白质结构挖掘、药物分子设计及其功能预测等领域都有广泛的应用。树是一种特殊的图,对频繁子树挖掘算法的研究有着重要的理论意义和应用价值。 本文工作主要包括以下几部分:(1)在分析当前频繁子树挖掘定义的基础上提出了基于支持度和频繁度的频繁子村挖掘定义;(2)为计算模式子树的支持度和频繁度,提出了一种基于树同构的候选子树支持度与频繁度的计数方法;(3)提出了森林的二维表表示方法,这提高了对数据库访问的速度;(4)提出了一种新的候选子树的生成方法,通过在数据库的基础上生成新的候选子树,从而减少了为了计算子树的支持度而进行的无效的树匹配问题;(5)提出了频繁子树挖掘算法FSubtreeM,它能有效地从自由树数据库中挖掘频繁的导出自由树。 实验研究表明,FSubtreeM能有效地从实验数据库carcinogen中挖掘其中的频繁导出自由子树结构,并根据频繁结构集提取有趣的关联规则,有一定的理论意义和应用价值。
其他文献
MIPS的意思是Microprocessor without Interlocked Pipeline Stages,即无内部互锁流水级的微处理器,它是世界上很流行的一种RISC处理器。与CISC相比,RISC的设计周期更短,设计也更
本文主要讨论了三维几何网格模型的几何压缩算法的现状。并针对目前拓扑压缩算法大都仅适用于三角形网格的现状,提出一种新型的无损压缩算法以及其实现方法。该算法的特点如下
频繁项集挖掘是一类重要的数据挖掘问题,可以广泛应用在关联规则挖掘、相关性分析、入侵检测、序列模式、分类和聚类等多种数据挖掘任务中。本文对大量频繁项集挖掘算法进行
随着面向服务架构SOA(Service-oriented Architecture)的发展,Web服务组合已经应用到日常生活的各个领域。用户在使用Web服务组合时,需要提供一些个人隐私信息以完成必要的业务功
基于案例的推理(Case-Based Reasoning,CBR)以完全不同于基于规则的推理(Rule-Based Reasoning,RBR)的方式在人工智能的众多技术中独树一帜。CBR可以理解为使用先前的经验来解
随着我国第一个全国性下一代互联网CNGI核心网CERNET2正式开通,IPV6下的各项应用成为学术、商业界研究的热点。作为IPV4协议下保障网络安全的重要环节—防火墙,是否适合在IPV6
随着网络信息技术的发展、Internet应用的逐渐普及,WWW已经成为一个巨大的信息存储、发布空间。但由于其数据的无结构化、无索引、异构性的特点,使得人们很难充分利用其丰富
本项目研究钻具构件包括疲劳寿命、腐蚀寿命和磨损寿命的评估方法,并编制计算机程序对钻具全寿命过程进行计算分析和管理,解决了一直困惑钻具管理者的钻具使用历史数据查询、
数据挖掘是帮助人们在海量数据中发现信息和知识的工具。近年来数据挖掘技术成了商业智能的核心技术,被广泛应用到了诸多领域,引起了学术界极大的关注,如何提高数据挖掘的效率成
随着信息化时代的到来,万维网已成为人们日常生活中不可或缺的一部分。然而其缺陷也是明显的,HTML在使网页变得越来越花哨的同时,对于信息的结构化描述却没有起到一点作用,语义网