基于序列编码频繁子树挖掘算法研究

来源 :兰州大学 | 被引量 : 0次 | 上传用户:JavaProDev
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
频繁模式挖掘是数据挖掘领域的一个基本问题,其研究范围包括事务、序列、树和图。其方法被广泛应用于许多其它数据挖掘任务中,如相关性分析,周期分析,最大模式,闭合模式,查询,分类,索引等等。随着网络的快速发展,频繁模式的挖掘已经推广到诸如图和树这类复杂模式的挖掘上,并广泛的应用于生物信息学、web挖掘、化合物结构分析等领域。本文对大量频繁子树挖掘算法,特别是基于模式增长的子树挖掘方法进行了深入的研究与分析,主要分析了基于模式增长策略下各种挖掘算法的实现方法与技巧,针对模式挖掘过程中侯选模式集的生成和支持度计算复杂的特点,以及重复运行挖掘算法而产生的时空消耗,提出一个简单高效的挖掘算法。本文提出了利用树的序列编码,按照模式增长方法来挖掘频繁子树的算法。算法引入基于数组结构的序列编码来表示树和森林;用最左路径扩展方法构造完整的模式增长机制;能够系统的根据树的拓扑结构,在频繁子树模式的各个增长点上构造相应扩展模式,把侯选模式生成巧妙地转化成有效扩展点的查找,这种方式不但保证了侯选模式生成完全无冗余,而且使支持度计算变得更加的简单可行,在此基础上,设计并实现了频繁子树挖掘改进算法TMG。本算法与基于Apriori的TreeMiner算法的比较,TMG算法具有更优的性能。适用范围更广,进行简单的变换后,可以对不同类型的树进行挖掘。
其他文献
随着人们对信息系统需求的迅速增长、国内外合作的日益频繁,项目的开发无论从业务上还是技术上复杂性都越来越大。面对开发成本、时间以及质量等各方面的约束,软件提供商需要放
移动IP的发展使得人们对移动通信的服务质量(QoS)提出了许多新的要求,需要其能满足一定的时延、丢包率以及带宽等。而随着安全问题的日益突出,通信安全也成为QoS的一个重要指标
设施农业是近十年随着农业环境工程技术的突破,迅速发展起来的新型农业生产技术。温室是设施农业的典型代表,如何实现温室的高效监控和低成本运营是目前要解决的重大问题。针
随着Internet的迅速发展和日益普及,电子文本信息迅速膨胀,任何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学和技术领域面临的一
图形用户界面GUI,作为人机交互技术的重要内容,提供了丰富的图形图像信息、直观的表达方式与用户交互。使用GUI系统作为人机界面的软件系统简洁、美观、力一便好用,更加人性
随着Web Services应用的深入,企业对服务的速度、服务范围、服务质量等都提出了更高的要求,寻找一个满足客户需求的服务也是越来越难。基于语义的Web服务组合的出现,为解决这
随着Internet和电子商务的不断发展,跨企业应用的日益复杂,单个Web服务的实现己经无法满足复杂业务的需求,需要通过将多个具有不同业务功能的Web服务按照一定的业务流程逻辑
随着计算机软件业和互联网的迅猛发展,针对软件的盗版与破解也随之泛滥起来。因此,如何对软件版权以及软件程序核心内容进行保护,已经成为软件安全领域中的一些棘手问题。目前的
学位
交通在国民经济和社会发展中起着举足轻重的作用。车速检测是交通管理系统中的一个重要组成部分。随着图像处理技术的发展,视频检测技术在车速检测中的应用越来越广泛。本文着