【摘 要】
:
随着时代的发展,高维不均衡数据越来越频繁地出现在各个领域,比如基因数据、信号数据、金融数据等;如何有效地对高维不均衡数据进行分类是一个重要的研究方向。为此,本文提出一种基于随机投影的决策树集成分类方法;并利用阈值移动的方式将该方法推广到高维不均衡数据的情形。在第二章,针对于高维数据的分类问题,本文提出一种基于随机投影的决策树集成学习方法Projection Forest(PJForest)。该方法
论文部分内容阅读
随着时代的发展,高维不均衡数据越来越频繁地出现在各个领域,比如基因数据、信号数据、金融数据等;如何有效地对高维不均衡数据进行分类是一个重要的研究方向。为此,本文提出一种基于随机投影的决策树集成分类方法;并利用阈值移动的方式将该方法推广到高维不均衡数据的情形。在第二章,针对于高维数据的分类问题,本文提出一种基于随机投影的决策树集成学习方法Projection Forest(PJForest)。该方法以决策树为基分类器,利用一系列随机投影对数据进行降维,基于降维后的数据构建相应的一系列决策树,而后通过集成学习构造集成分类器。利用随机投影对数据进行降维,能保持数据几何结构的信息;更重要的是,随机投影通过对原始数据进行扰动,能丰富一系列决策树的多样性,经过集成可有效克服噪音的影响,进而提升PJForest的泛化能力。本文证明了PJForest泛化误差的极限性质,得到一定意义下泛化误差的收敛速度。本文做了大量的模拟研究,并对实际数据进行了实证分析。模拟研究的结果表明,PJForest能有效地对包含大量噪音的高维数据进行分类,比起已有的诸如随机森林、Xgboost等方法,有更好的分类性能。在第三章,本文将PJForest方法推广到了高维不均衡数据的情形下,提出一种基于阈值移动的均衡化PJForest方法,Banlanced Projection Forest(BPJForest)。该方法通过改变投票阈值,移动决策边界,进而增强对少数类样本的分类表现,这使得BPJForest能对高维不均衡数据进行分类。当以均衡分类准确率(Balanced accuracy)作为不均衡数据分类的评价指标时,本文给出了一个最优阈值的选择方法。本文将PJForest泛化误差的极限性质推广到了BPJForest下,得到了相似的理论结果。本文做了模拟研究,模拟研究的结果表明,BPJForest能有效地对高维不均衡数据进行分类,比起已有的PJForest、RPF等方法,有更好的分类性能。
其他文献
针对现有发动机装配生产线,托盘回转装置旋转效率低,旋转精度不高的问题,提出一种结构简单,易控制的摩擦式托盘回转装置。详细描述了回转装置的机械结构、工作原理及控制的实
<正>据美国国家航空航天局(NASA)官网近日报道,NASA与迈阿密大学合作,初步研制成功一种新型固态电池,其体型小巧,节省空间,可用在"立方体卫星(Cube Sats)"等微型卫星上。这种
目的评价2型糖尿病患者血清抵抗素(Resistin)水平与高血压发生及其血压水平严重程度的相关性,探讨Resistin与心血管病危险因素的关系。方法选取正常对照组72例,2型糖尿病组85
我国电子商务发展始于20世纪90年代,近年来,电子商务作为一个新兴产业发展迅猛,已迅速渗透到人们生活的方方面面,开创了足不出户的购物新模式。同时,电子商务也创造了许多新
目的:建立反相高效液相色谱法同时测定甘肃不同产地黄芩及不同炮制品中黄芩苷、黄芩素及汉黄芩素的含量。方法:采用Phecda C18(4.6 mm×250 mm,5μm)色谱柱,以甲醇-2 g/L冰醋
目的观察二十五味珊瑚丸联合小剂量盐酸曲唑酮片对慢性紧张型头痛(Chronictension-typeheadache,CTTH)的疗效及应用价值。方法以抽签法随机选取符合研究标准的观察组和对照组
在互联网与云计算高速发展的今天,大数据技术正以其在数据收集与处理上的优越性引领着新一轮的信息变革。在高校毕业生就业情况调查中,采用就业质量系数作为评价标准,使用大
铝合金叠层复合材料(ALC)是由两种或两种以上的不同铝合金通过轧制、铸造等工艺,在界面上实现冶金结合而制成。与传统铝合金相比,这种铝合金叠层复合材料在强度、韧性和抗冲
王德禄:我们想了解三个方面的问题:一是您去美国之前,在国内的情况;二是您在美国期间的情况;三是您回国以后的情况。罗沛霖:1913年,我出生于天津,6岁那
Wang Deluo: We want
目的观察阿德福韦酯(adefovir dipivoxil,ADV)治疗替比夫定(telbivudine,LDT)耐药的慢性乙型肝炎患者病毒学、血清学、生物化学应答及耐药发生情况。方法13名(10人HBeAg阳性,