基于随机森林的变量重要性度量和核密度估计算法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:df6b1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随机森林作为一种重要和常见的数据挖掘算法,具有分类性能高、参数少、运算效率高、容忍噪声等优势。此外,随机森林还具有变量重要性度量、OOB误差估计(Out-of-bag,OOB)和样本之间相似度估计等功能。这些优越的性能使得随机森林在各个领域都得到了广泛的研究和应用。在传统的随机森林变量重要性度量(VIM)方法中,决策树OOB误差率并不能真实地反映泛化性能;且当存在相关变量时,决策树OOB误差率对变量的随机置换并不敏感,尤其是在高维数据上,从而导致VIM对变量的重要性测量存在偏差,且做为一种特征选择算法存在不稳定的性质。针对以上问题,本文依据随机森林间隔的定义来进行改进,提出了基于间隔序列的变量重要性度量算法(VIM-MS),用某个变量随机置换前后的两条间隔序列的相似度来度量该变量的重要性,并综合特征选择算法的稳定性与分类性能来评价VIM和VIM-MS。在基因数据集和UCI数据集上的对比实验中,VIM-MS取得了更好的稳定性,且没有为此牺牲分类精度。现有的概率随机森林方法主要有叶频率、Laplace估计、m估计,这些方法输出的后验概率不稳定且偏差大,而且没有考虑到同一叶子节点上不同待测样本之间的差别。针对以上问题,本文提出了改进的方法——基于随机森林的核密度估计(RFPE-KED),即利用非参数核密度估计法估计出类条件概率密度函数,再利用叶斯公式得出后验概率,为随机森林的分类结果提供风险概率。针对核密度估计在高维数据上的局限,提出了降维方法--即在决策树所在特征子空间(RFPE-KEDI)、结点所在特征子空间(RFPE-KEDII)、随机森林相似度空间(RFPE-KEDIII)中进行核密度估计。为进行对比,我们也给出了在随机空间(RFPE-KEDIV)和原空间(RFPE-KEDV)上的核密度估计结果,并用MSE来评价概率随机森林与RFPE-KED的性能。在人工数据上的对比试验中,RFPE-KED比概率随机森林输出了更精确的概率。
其他文献
信息化社会已经初步形成,社会经济的发展使得电子计算机的应用越来越广,计算机软件工程技术的研发也在不断突破,其广泛地应用同样促进了现代社会经济、政治、文化发展的转型
1人民日报2007年6月9日《中华人民共和国行政复议法实施条例》将于2007年8月1日起施行国务院总理温家宝日前签署第499号国务院令,公布《中华人民共和国行政复议法实施条例》,
目前,遥感卫星获取的各种信息已成功应用于国民经济和国防建设的多个领域,并发挥着越来越重要的作用。卫星轨道如何设计是影响卫星获取数据的重要因素,卫星轨道仿真是进行卫
由于开式自然循环系统具有结构简单、排热能力强、安全性好等优点,已被广泛地应用于非能动安全技术领域中。然而,在长期运行工况下,开式自然循环系统易发生闪蒸流动不稳定现
人工耳蜗是帮助深度感音性耳聋患者重获听力的唯一医疗装置,其工作原理是将声音信号转化为电脉冲刺激病变耳蜗听神经,让患者获得部分听力。目前,人工耳蜗患者在安静环境下的
目前,人民银行正会同财政部、税务总局和银监会等有关部门,研究出台新的现金管理制度并与今年6月底实施。制度规定控制现金使用的范围,与近年出现腐败问题的灰色收入、隐性福利
席夫碱主要是指含有碳氮双键(-RC=N-)基团的一类有机化合物。席夫碱类化合物具有抑菌、杀菌、抗肿瘤、抗病毒的生物活性,其合成研究一直是合成化学等领域的研究热点之一,其中对
分析了传统信息检索技术在数字图书馆应用中的局限 ,论述了基于内容的信息检索技术的概念特点、关键技术、检索方法及其在数字图书馆的应用和发展方向
近五年来,青海省民和县第三中学团委全面贯彻党的教育方针,坚持德育为先,将基层团支部建设与新时代对青少年学生的要求相结合,以引导学生树立正确的世界观、人生观、价值观为
神经系统控制着生物肌肉的活动,协调着各个组织和器官,建立和接受外来情报并进行协调。神经系统是动物体最重要的连络和控制系统。神经系统通过神经元发放锋电位来传递信息,