面向大规模数据集的相关向量机分类算法研究与应用

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:weilijay
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
相关向量机(Relevance Vector Machine,RVM)是一种基于稀疏贝叶斯理论提出的机器学习算法,它的主要宗旨在于拟合目标数据进行分类和回归预测。但RVM算法在某些方面还有一些不足而限制了它的推广和应用,例如(1)模型收敛所需时间较长,训练速度过慢;(2)在训练样本数据规模较大时,模型训练所需空间资源和时间随之急剧增长,对此类数据集分类性能较差;(3)对于不均衡数据集分类性能不稳定。针对上述问题,本课题深入研究了RVM在不同类型(均衡、非均衡、高维度、低维度)的大规模数据集上分类时的不足,结合粒度计算和集成学习的思想,针对不同数据类型,在Spark分布式计算集群环境下,建立RVM混合模型,实现对不同类型大规模数据集的高精度、高效率的分类。主要工作包括以下几点:(1)对于样本特征不多的大规模均衡数据集,基于集成学习的Discrete AdaBoost算法思想提出Discrete-AdaBoost-RVM(DAB-RVM)算法,该算法针对RVM算法对大规模训练数据集训练用时过长和消耗内存资源过多的问题,通过在Spark分布式计算平台上,用Discrete AdaBoost算法思想对训练数据集进行分块训练,并利用SMOTE算法解决可能因为分块而导致的某些子块数据不均衡的问题,通过这种方法可以有效降低在大规模训练数据集样本中算法的时间和内存消耗,同时在UCI标准数据集和人工数据集上验证了算法的有效性。(2)对于样本特征较多的大规模均衡数据集,采用上述DAB-RVM的基本框架,利用Gentle AdaBoost算法的思想,结合大规模数据集样本数量充足的特点,通过分组的方式改变弱分类器的获取方式,提出Gentle-AdaBoost-RVM(GAB-RVM)算法,该算法可以有效地解决RVM对高维度大规模均衡数据集的分类问题。(3)对于大规模非均衡数据集,结合粒度计算和集成学习的思想,先在Spark分布式计算平台下对训练数据集进行分块,然后对于分块后的子集再利用粒度计算的思想,选择合适的信息粒度获取规则,对正负样本进行信息粒度的提取,通过控制粒度信息的获取方式,使得最终用于训练的数据集中的正负样本比例趋于平衡。基于对模型精确度和训练速度的不同需求,本课题分别选择用RVM的相关向量和KMeans算法作为信息粒度提取的规则,通过这两种提取方式分别得到RV-GranularBoost-RVM(RGB-RVM)算法和KMeans-GranularBoost-RVM(KGB-RVM)算法,前者侧重训练精确度,而后者则更加注重模型的训练速度。(4)通过部署在桥梁上的光纤传感监测系统,将本课题提出的RGB-RVM算法和KGB-RVM算法应用于桥梁健康监测中,对桥梁裂缝进行识别,实验结果验证了这两个算法的有效性。
其他文献
互联网技术的蓬勃发展导致信息过载,使得公众难以辨别琳琅满目的商品和选择最符合自己需要的商品。因此,基于信息检索的个性化推荐系统应运而生,协同过滤技术是应用最广泛的
自从证券交易市场的出现,世界各地的学者都试图了解驱动股票价格的因素有哪些。尽管文献认为市场是趋于有效的并且与宏观变量有关,但哪些变量是重要的还并不确定。此外,它们
周界入侵电磁传感系统是近年来发展起来的一种户外周界防护系统,该系统广泛应用于机场,军事基地,核电站,工业厂房等重要场所,其原理是将一根漏泄同轴电缆(简称漏缆)浅埋于地
高速宽带无线通信系统中,由于符号间隔降低,导致信号到达接收端的各延时路径可分辨,从而带来多径效应且引入了频率选择性衰落。此信道是非时变的,然而一旦通信双方中的一方处
目的:1.筛选急性脑干梗死患者的差异性内源性代谢物质,通过对获得的生物标志物进行分析,探讨急性脑干梗死发病的可能机制。2.观察针刺组与对照组治疗前后急性脑干梗死患者生物标志物的变化趋势,探讨针刺对急性脑干梗死可能的干预效应。方法:1.以27例临床急性脑干梗死患者和25例正常健康人为研究对象,采集受试者晨起空腹肘静脉血4~5m L,经过高速离心机离心,取血清为检测样本,采用超高效液相色谱-四级杆-飞
日渐成熟的人体运动捕获技术催生了一批大规模运动数据库的出现,为人体动画生成提供了真实且丰富的数据来源。受运动捕获系统成本、环境、资源等方面的限制,通常动画师们会为
随着计算机体系结构的发展,多核处理器内部结构越来越复杂,处理器核的数目和种类不断增加,如何充分利用这些处理器核成为计算机领域的一个研究热点。在多核处理器中,任务调度
在全球经济不断发展,知识经济竞争日趋激烈的今天,现代科技对人类社会的影响日益加深,科技工作者对社会的发展显得越来越突出。但是由于工作压力大、闲暇时间少、久坐、不经
数据挖掘是人工智能领域中的重要组成部分,同时也是一个多领域交叉的学科,广泛的应用于数据处理方面。Pawlak于1982年提出了粗糙集理论(Rough Set,RS),其能够处理数据集中不
随着互联网技术的迅猛发展以及互联网应用的不断普及,互联网已经成为越来越多的人们获取信息的重要来源,同时成为人们表达自己观点的平台,由此产生巨大的情绪数据。与此同时,