基于关联规则的分类模型发现算法研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:music5700
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会信息化程度的提高,数据量呈指数增长,从大量数据中挖掘有价值的知识在当今信息时代具有重要意义。 在数据挖掘的各个分支中,关联规则挖掘和分类挖掘是两个高度活跃的领域,其应用范围也非常广泛。因此,可以利用关联和分类的相似性用关联挖掘算法来完成分类任务,这种分类算法就是关联分类挖掘算法。关联分类法将关联规则挖掘技术应用于分类领域,构建了一种新的更准确的分类器。由于关联规则挖掘在挖掘大量数据之间的潜在相关性方面的优势和良好的扩展适应性,使得在其基础上的关联分类技术有广阔的应用空间。自1998年出现第一个基于关联规则的分类算法(CBA)以来,关联分类算法的设计及应用研究一直非常活跃。目前,在关联分类问题上存在的共识是:关联分类的准确度总体上显著地高于传统的决策树分类,但关联分类存在的主要问题是产生太多的关联规则,导致计算速度慢、内存开销大、分类模型难以理解。 本文基于上述的研究背景,主要研究了基于原子关联规则的分类新技术CAAR(Classification based on Atomic Association Rules)。CAAR基于人工智能原理,模仿人类利用“突出特征和先易后难策略”进行分类,消除了关联规则挖掘时的“组合爆炸效应”。就算法的性能来看CAAR有不俗的业绩,其分类的准确度和模型的可理解性都优于决策树与CBA。本文主要进行了CAAR算法的抗干扰性研究,并提出了基于属性加权和附加属性的两种改进算法,提高了分类模型的预测准确性。本文的主要研究工作如下: (1)综述了关联分类技术的国内外研究现状。 (2)对分类问题进行了形式化描述,分析了现有关联分类算法的分类原理和优缺点,并给出了分类器的构建步骤。 (3)在不同数据集上对CAAR算法的抗干扰性进行了测试。 (4)在原CAAR算法的基础上,提出了一种基于属性加权的分类算法,并测试了该算法的分类准确性。 (5)数据集中通过添加附加属性的方法,提高了CAAR算法对多属性依赖数据集的分类准确度。 本文的创新之处是: (1)将属性加权的思想引入到了原子关联规则分类算法中。在CAAR分类的基础上,得到分类误差率,并计算得出幅度调整因子,通过调整权重系数来提高分类的准确度。 (2)通过在数据集中增加附加属性的方法,提高了CAAR算法在多属性依赖数据集上的分类准确度。 本文的内容分为六章,第一章介绍了本课题的研究背景和国内外研究现状;第二章介绍了相关的概念、关联分类领域的背景知识和两种经典的分类算法;第三章介绍了原子关联分类算法的分类原理及算法设计;第四章主要进行了原子关联分类算法的抗干扰性实验,并与其他算法进行了实验结果的比较;第五章介绍了两种改进的原子关联规则分类算法,给出了改进算法的具体步骤,并进行了实验测试;最后总结了本文的工作,描述了进一步的研究方向。
其他文献
随着信息技术的飞速发展,无线传感器网络(Wireless Sensor Networks, WSN)正成为传感器领域内一个新兴的研究方向。它集成了传感器、微机电系统和网络三大技术,是一种全新的的信
Ad Hoc网络是一种不依赖于基础设施的网络,由于其布网灵活,便捷等特点,在很多领域得到了广泛的应用。针对消防灭火领域,本课题组进行了基于Ad Hoc的实时视频传输研究,取得了
进入新世纪以来,图形硬件取得飞速发展,特别是最近几年可编程图形硬件(GPU)的推出和其性能的不断提升,开创了图形编程的新时代。由于毛纺编织布料结构的相对复杂性,相关的研
802.11s草案提供了一种默认的路由机制,是一种混合的路由机制,它包括两种路由方法:On-Demand Routing和Tree Based Routing。其中On-Demand Routing和传统的AODV路由方法相同,而T
智能车辆技术必将是未来高技术战争条件下军用车辆的主要应用技术之一。人脸定位和人眼定位算法研究是车辆驾驶员疲劳状态监测技术的关键部分,也是智能车辆安全辅助驾驶研究的
云计算作为一种新兴的的网络计算模式,为用户提供了海量计算能力、大规模数据处理、大容量存储等功能,已经成为了一种被业界普遍接受的计算模式,吸引了各方包括学术界、政府
Web服务以易用性、后台代码透明性、平台无关性等优势获得了更多普及度,也使得更多攻击者将注意力放在针对web服务的攻击方面。为了给web服务提供信息安全保证,本文研究设计
数据仓库是一个面向主题的、集成的、相对稳定的且随时间不断变化的数据集合,用来支持管理人员的决策。它是面向查询、分析用户的,其中存储着大量的多维历史数据。用户提交的查
随着计算机科学技术,网络通信技术的发展,大大促进了多媒体在人们生活中各方面的应用;目前多媒体技术已经在通信领域和计算机领域日渐成熟。然而,多媒体数据在生成、传输和播
学位