论文部分内容阅读
随着数据分类技术的不断发展,科研人员提出了越来越多的分类算法,但是这些算法各具特点,在理论层面各有优势及不足,因此,选择哪一种或哪几种分类算法去解决分类问题的过程往往需要花费大量的时间。实际应用中,为了节约选择分类算法的时间成本,人们往往会选择经典的、影响力大的,但却未必是最适合他们的数据的分类算法来解决问题,这会导致一些较新的、性能较好的分类算法得不到人们的重视。目前为止,对于分类问题并没有一个通用的、在任何数据上都能取得最佳分类正确率的算法。因此,研究如何高效的选择最佳的分类方法已经成为研究人员、特别是领域专家长期以来追求的目标。本文对数据分类算法性能进行大规模实验对比分析,旨在为研究人员和实际开发者在分类算法的选择问题上提供一定的实践指导。本文对数据分类算法性能的大规模实验对比分析分为两个部分,分别是多类分类算法性能的大规模实验对比分析,和对多元分类问题中的二元分类器组合的研究。在多类分类算法性能的大规模实验中,通过对3个较新的和8个数据挖掘领域最具影响力的分类算法在81个公开数据集上的分类性能进行对比分析,得出了一些具有参考价值的结论。这些结论包括,分类正确率最好的5个算法分别是GBDT(Gradient Boosting Decision Tree)、Random Forests、ELM(Extreme Learning Machine)、LibSVM和C4.5算法,其中,除了C4.5算法是最早的分类算法之一,前3个分类算法均是近些年被提出的。另外,SRC(Sparse Representation Classification)算法的分类正确率表现稍逊色于C4.5算法,但算法效率偏低是SRC的一个明显的劣势。本文通过结合数据集类数和属性个数的分布情况,进一步详细对比分析了分类正确率最好的5个算法,为人们快速地选择出最适合他们的数据的分类算法提供了一定的参考。在多元分类问题中的二元分类器组合方法的研究中,本文对3类二元分类器组合方式(多元分类问题分解策略)在31个公开数据集上进行了大规模实验对比分析。其中,对于OVA(One-vs-All)分解策略和OVO(One-vs-One)分解策略,使用了9个不同的基分类器(Base Classifier),分别测试了3种OVA聚合规则(Aggregation Rule)和8种OVO聚合规则。通过对OVA和OVO分解策略的实验对比分析,发现在任意的基分类器下,使用OVA策略下取得的最佳正确率的数据集的比例要多于使用OVO策略;对于不同的OVA聚合规则和OVO聚合规则而言,使用不同的基分类器会对不同的OVA和OVO聚合规则的性能产生一定的影响,并不是在所有的基分类器上使用OVA和OVO分解策略都能提高数据的分类正确率。通过在10个不同的基分类器下,对ECOC(Error-Correcting Output Codes)中的3种编码方法和6种解码方法性能的大规模实验对比分析,发现当基分类器不同时,编码方法和解码方式的不同组合的分类正确率表现也不尽相同,在编码和解码方法选择恰当的情况下,使用ECOC框架可以有效地提高数据的分类正确率。上述研究成果,对于数据挖掘、大数据分析和诸多的实际应用,具有较为重要的参考价值和指导意义,将方便研究人员和工程师选择适合他们数据和应用的准确度最高的分类算法。