数据分类算法性能的大规模实验对比分析

来源 :河南大学 | 被引量 : 0次 | 上传用户:gzlwh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据分类技术的不断发展,科研人员提出了越来越多的分类算法,但是这些算法各具特点,在理论层面各有优势及不足,因此,选择哪一种或哪几种分类算法去解决分类问题的过程往往需要花费大量的时间。实际应用中,为了节约选择分类算法的时间成本,人们往往会选择经典的、影响力大的,但却未必是最适合他们的数据的分类算法来解决问题,这会导致一些较新的、性能较好的分类算法得不到人们的重视。目前为止,对于分类问题并没有一个通用的、在任何数据上都能取得最佳分类正确率的算法。因此,研究如何高效的选择最佳的分类方法已经成为研究人员、特别是领域专家长期以来追求的目标。本文对数据分类算法性能进行大规模实验对比分析,旨在为研究人员和实际开发者在分类算法的选择问题上提供一定的实践指导。本文对数据分类算法性能的大规模实验对比分析分为两个部分,分别是多类分类算法性能的大规模实验对比分析,和对多元分类问题中的二元分类器组合的研究。在多类分类算法性能的大规模实验中,通过对3个较新的和8个数据挖掘领域最具影响力的分类算法在81个公开数据集上的分类性能进行对比分析,得出了一些具有参考价值的结论。这些结论包括,分类正确率最好的5个算法分别是GBDT(Gradient Boosting Decision Tree)、Random Forests、ELM(Extreme Learning Machine)、LibSVM和C4.5算法,其中,除了C4.5算法是最早的分类算法之一,前3个分类算法均是近些年被提出的。另外,SRC(Sparse Representation Classification)算法的分类正确率表现稍逊色于C4.5算法,但算法效率偏低是SRC的一个明显的劣势。本文通过结合数据集类数和属性个数的分布情况,进一步详细对比分析了分类正确率最好的5个算法,为人们快速地选择出最适合他们的数据的分类算法提供了一定的参考。在多元分类问题中的二元分类器组合方法的研究中,本文对3类二元分类器组合方式(多元分类问题分解策略)在31个公开数据集上进行了大规模实验对比分析。其中,对于OVA(One-vs-All)分解策略和OVO(One-vs-One)分解策略,使用了9个不同的基分类器(Base Classifier),分别测试了3种OVA聚合规则(Aggregation Rule)和8种OVO聚合规则。通过对OVA和OVO分解策略的实验对比分析,发现在任意的基分类器下,使用OVA策略下取得的最佳正确率的数据集的比例要多于使用OVO策略;对于不同的OVA聚合规则和OVO聚合规则而言,使用不同的基分类器会对不同的OVA和OVO聚合规则的性能产生一定的影响,并不是在所有的基分类器上使用OVA和OVO分解策略都能提高数据的分类正确率。通过在10个不同的基分类器下,对ECOC(Error-Correcting Output Codes)中的3种编码方法和6种解码方法性能的大规模实验对比分析,发现当基分类器不同时,编码方法和解码方式的不同组合的分类正确率表现也不尽相同,在编码和解码方法选择恰当的情况下,使用ECOC框架可以有效地提高数据的分类正确率。上述研究成果,对于数据挖掘、大数据分析和诸多的实际应用,具有较为重要的参考价值和指导意义,将方便研究人员和工程师选择适合他们数据和应用的准确度最高的分类算法。
其他文献
车牌识别系统(LPR)是智能交通系统的核心组成部分,广泛应用于交通部门的违章检测、高速公路自动收费和智能停车场管理等方面。车牌识别系统主要包含图像预处理、车牌定位、车
随着对存储需求量的不断增长,用户对数据的连续可用性的需求标准也不断提高。如何快速有效地保护和恢复数据,已成为目前信息存储领域的研究热点。连续数据保护便是实现此要求
触摸屏是一种集显示器、鼠标器和键盘等功能于一体的新型人机界面,不仅能显示丰富的多媒体信息,而且集成触控和键盘输入的功能,体积小巧,特别适合嵌入式设备特别是便携设备上
网络分析作为GIS最主要的功能之一,是地理信息系统的重要组成部分,在电子导航、交通旅游、城市规划以及电力、通讯等各种管网、管线的布局设计中发挥了重要的作用,是研究的一个
学位
随着智慧医疗的兴起,大量的医疗数据资源被整合到一起。医疗大数据作为一笔宝贵的财富,它的知识挖掘已经成为当前学术领域的一个研究重点。由于数据量和冗余属性的增多,使得
面对国内广阔的高清市场,蓝光技术蓄势已久,如果采用蓝光,中国高清市场将继续受制于国外专利技术。在这样的背景下,中国拥有自主知识产权的采用红光技术的NVD播放机,于2006年
RTU是一种远端测控单元装置,负责对现场信号、工业设备的监测和控制。近些年来,在国内的RTU和DAU产品主要应用于电力行业的电网调度系统、变电站自动化控制,油田的自动化、输
数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的数据中提取人们感兴趣的知识和规则的过程,数据挖掘的研究已经取得了重大的进展,而且被应用到众多的领域。关联规则
学位
随着社会信息化的飞速发展,从人们的日常生活到企业的业务运营,都被日益渗透的信息系统所包围,对其依赖性也越来越大。尤其在金融、通讯、交通、保险等行业中,一旦关键数据丢
近年来,国家对教学改革不断重视,教育部相继出台《国家教育事业发展“十一五”规划纲要》等政策。随着教学改革工作的不断深入,完善智能化计算机辅助教学(ICAI)系统的开发已