高维小样本数据的特征选择研究及其稳定性分析

被引量 : 0次 | 上传用户:a63421118
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物信息学、图像处理、文本挖掘等大规模数据挖掘问题的不断涌现,数据挖掘的研究对象越来越复杂,对象的特征维数也越来越高。在现实生活及科学研究中产生了大量的高维小样本数据,如果直接利用这些高维小样本数据进行数据挖掘,容易出现维数灾难问题。通过特征选择,可以删除高维小样本数据中的冗余特征和噪声特征,从而降低学习算法的时间和空间复杂度,避免维数灾难。已有的特征选择方法主要侧重于特征选择结果的高分类性能或者聚类性能,而忽略了特征选择结果的稳定性。特征选择的稳定性问题对于高维小样本数据的数据挖掘与机器学习过程是非常重要的,不稳定的特征选择结果将带来很多歧义,难以获取可以理解的真实特征。本文以高维小样本数据的特征选择及其稳定性为研究对象,做了如下主要工作:1.通过大量地阅读特征选择及其稳定性的相关文献,系统地介绍了特征选择稳定性的概念、意义,详细地整理了已有的稳定性度量方法,对现有的稳定性特征选择方法进行整理研究,为后续的研究打下基础。2.提出了一种高维小样本数据的特征选择方法——基于随机森林的递归聚类消除特征选择方法RF-RCE. RF-RCE是在SVM-RCE以及ISVM-RCE的基础上提出的。RF-RCE在ISVM-RCE的框架上使用随机森林的特征重要性给特征评分,由于随机森林在处理高维小样本数据集上的优越性,使得RF-RCE在保持分类准确率和特征选择的稳定性的基础上,极大地提高了特征选择的时间效率,并且能够解决ISVM-RCE不能解决的超高维数据集。3.为了提高特征选择的稳定性,本文系统地整理并分析了特征选择不稳定的原因,并进行了大量的实验验证,此外本文引入了一种新的稳定性度量方法,该度量方法同时考虑了基于特征子集和特征排序的稳定性度量方法。在已有的稳定特征选择方法的研究基础上,本文提出了一种基于随机森林思想的稳定特征选择方法——随机集成特征选择方法REFS,通过在多个高维小样本数据集上进行实验,验证了所提方法的有效性。
其他文献
第一部分躯体形式疼痛障碍患者心理健康状况与疼痛程度的研究目的:探讨SPD患者焦虑、抑郁症状与其疼痛症状及严重程度之间的关系。材料和方法:共纳入15例SPD患者及15名健康志愿
对外直接投资(OFDI)近年来呈现迅猛发展之势,在对外直接投资方面我国虽起步较晚,但其作为我国参与国际市场的重要方式,增速较快并已经取得了一定的成果;作为世界第二大洲的非
分别以两种不同的食味仪为研究对象,对我国大米的食味品质进行了评价,并与国标方法的评价结果进行比较。结果表明,两种食味仪与国标方法的评价结果之间未显示有显著的相关关
体育课程论要避免长期领域化并走向一门成熟的学术性学科,就必须对其概念、性质、研究对象及任务进行研究,对诸如此类问题的探究,将有助于体育课程理论的升化及体系的构建,同
目的目前精神分裂症被认为是一种脑功能障碍的疾病,但疾病的具体病理机制仍然不清。近几年对精神分裂症的研究主要采用功能磁共振成像技术(functional magnetic resonance im
目的通过动物实验比较碘伏与碘甘油对牙龈炎的治疗作用。方法采用丝线结扎大鼠牙颈部,辅以高糖饮食造成牙龈炎模型,实验分为正常对照组、牙龈炎模型组、碘伏组与碘甘油组。用药
以探究DNA分子结构为课堂主线,分析科学史料,创设探究情境,采用小组合作的方式,引导学生将史料分析与模型构建有机结合,重现沃森和克里克构建DNA双螺旋结构模型的探究之路,调
国际收支平衡是宏观经济调控的四大目标之一,经常项目失衡已经成为众多学者研究和探索的重要宏观经济问题之一。伴随着各国人口老龄化问题的到来,研究人口结构变化对经常项目
我国正处于加速推进工业化和城市化的发展阶段,随之产生的刚性能源需求导致了温室气体排放、雾霾等一系列日益严峻的环境问题,在国际上面临着巨大的减排压力,在国内面临着大
2002年以来,由于国际收支双顺差和人民币升值预期,外资大量流入,外汇占款的问题严重的影响了我国货币政策的实施,外汇占款已经成为我国货币供给增加最重要的渠道。因此,我国