论文部分内容阅读
随着信息技术的不断发展,特别互联网技术的飞速发展,使得信息的规模呈现爆炸式增长,那么如何从这些数据中挖掘重要信息成为各个领域的共同需求,而分类问题作为模式识别和机器学习领域的常见问题而一直备受关注。By Hugh A. Chipman等人于2008年提出贝叶斯累加回归树(BART)回归预测模型,并且2010将其推广应用到分类问题上去,是一种基于贝叶斯树的集成学习方法,具有泛化能力强及结果以概率形式输出的优点,鉴于该模型对二分类问题具有较好的性能,本文就该模型扩展到多分类问题上进行了研究,主要工作如下:首先对三种常用处理多分类问题的分解策略进行了介绍,并且说明了三种策略结合BART分类模型的可能。随后针对OAOBART算法中错分样本的实际类别得分排名基本处在第二名的情况,提出了改进的OAOBART算法(MOAOBART),该算法是对落入不可分区域的样本利用其隶属于得分最大和次大的类别的隶属度来提高分类精度。通过对UCI上十个数据集的测试表明,改进的算法比原有的算法的不可分区域的分类精度和总体分类精度有所提高。针对OAO分解策略中分类器个数会随着类别个数K以O (K2)的速度增长,提出了基于一次数据划分的OAOBART算法(ODMOAOBART),根据类到其余类的距离之和对整体数据类别划分成类别个数近似相等的两个簇,然后分别对这两个簇使用MOAOBART算法处理,这样可以在一定程度减少分类器的数量,从而也可以减少训练和测试的时间。对多个UCI数据集进行测试表明,该算法在识别精度相当的情况下,训练时间和测试时间都明显降低了。