论文部分内容阅读
相关向量机(Relevance Vector Machine,RVM)是一种基于稀疏贝叶斯理论提出的机器学习算法,它的主要宗旨在于拟合目标数据进行分类和回归预测。但RVM算法在某些方面还有一些不足而限制了它的推广和应用,例如(1)模型收敛所需时间较长,训练速度过慢;(2)在训练样本数据规模较大时,模型训练所需空间资源和时间随之急剧增长,对此类数据集分类性能较差;(3)对于不均衡数据集分类性能不稳定。针对上述问题,本课题深入研究了RVM在不同类型(均衡、非均衡、高维度、低维度)的大规模数据集上分类时的不足,结合粒度计算和集成学习的思想,针对不同数据类型,在Spark分布式计算集群环境下,建立RVM混合模型,实现对不同类型大规模数据集的高精度、高效率的分类。主要工作包括以下几点:(1)对于样本特征不多的大规模均衡数据集,基于集成学习的Discrete AdaBoost算法思想提出Discrete-AdaBoost-RVM(DAB-RVM)算法,该算法针对RVM算法对大规模训练数据集训练用时过长和消耗内存资源过多的问题,通过在Spark分布式计算平台上,用Discrete AdaBoost算法思想对训练数据集进行分块训练,并利用SMOTE算法解决可能因为分块而导致的某些子块数据不均衡的问题,通过这种方法可以有效降低在大规模训练数据集样本中算法的时间和内存消耗,同时在UCI标准数据集和人工数据集上验证了算法的有效性。(2)对于样本特征较多的大规模均衡数据集,采用上述DAB-RVM的基本框架,利用Gentle AdaBoost算法的思想,结合大规模数据集样本数量充足的特点,通过分组的方式改变弱分类器的获取方式,提出Gentle-AdaBoost-RVM(GAB-RVM)算法,该算法可以有效地解决RVM对高维度大规模均衡数据集的分类问题。(3)对于大规模非均衡数据集,结合粒度计算和集成学习的思想,先在Spark分布式计算平台下对训练数据集进行分块,然后对于分块后的子集再利用粒度计算的思想,选择合适的信息粒度获取规则,对正负样本进行信息粒度的提取,通过控制粒度信息的获取方式,使得最终用于训练的数据集中的正负样本比例趋于平衡。基于对模型精确度和训练速度的不同需求,本课题分别选择用RVM的相关向量和KMeans算法作为信息粒度提取的规则,通过这两种提取方式分别得到RV-GranularBoost-RVM(RGB-RVM)算法和KMeans-GranularBoost-RVM(KGB-RVM)算法,前者侧重训练精确度,而后者则更加注重模型的训练速度。(4)通过部署在桥梁上的光纤传感监测系统,将本课题提出的RGB-RVM算法和KGB-RVM算法应用于桥梁健康监测中,对桥梁裂缝进行识别,实验结果验证了这两个算法的有效性。