面向医学数据的随机森林特征选择及分类方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:yannini01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
医学数据挖掘是数据挖掘技术的重要研究方向,多年来始终是计算机科学和医学领域的研究热点。近年来,医学数据挖掘对象正逐渐由临床诊断数据转变到基因芯片数据。目前,许多优秀的数据挖掘算法被应用于各种医学研究工作中,如决策树、支持向量机和人工神经网络等。然而,医学数据所固有的高维特征空间、高度特征冗余、特征高度相关、样本类别不平衡等特点以及医学研究对于数据挖掘结果的可理解性要求,使得传统的数据挖掘算法难以直接应用于医学数据挖掘任务中。随机森林算法是一种基于决策树的集成机器学习算法。一方面,随机森林因为具有分类精度高、运算速度快、能够从具有小边际效应和复杂相互作用的特征中识别主相关特征的优点,在医学数据分析中得到广泛应用;另一方面,有研究表明随机森林在类别不平衡数据集和高维数据集上,其分类能力和稳定性会受到削弱。针对医学数据集的特征高维性、冗余性、相关性以及样本类别不平衡等问题,本文以UCI标准数据集、糖尿病临床诊断数据集和基因芯片数据集为对象,研究了基于随机森林的特征选择和数据分类方法,主要开展了以下几个方面的工作。首先,针对医学数据集的样本类别不平衡问题,提出了一种基于有放回地随机重采样技术和集成机器学习思想的随机森林改进算法。该算法首先从原始训练数据集中利用有放回地随机重采样技术构建样本类别平衡的数据集,然后在每一个采样数据集上训练随机森林分类器,最后所有采样数据集上生成的随机森林分类器通过多数投票方式确定未知样本的分类类别。在UCI数据集上的实验结果表明,与传统的基于随机降采样和基于代价敏感的方法相比,本文提出的算法能够有效提高分类器的分类性能尤其是少数类样本的查全率。其次,针对医学临床数据集的高维特征空间和特征间高度相关问题,提出了一种基于随机森林的Filter式特征选择算法。该算法首先基于随机森林变量重要性分数对数据集中的特征进行排序,然后通过迭代实验确定特征选择的阈值,选取重要性分数最大的前若干个特征构成特征子集,最后在选出的特征子集上训练分类器。在UCI数据集和糖尿病临床数据集上的实验结果表明,基于随机森林变量重要性分数的算法的分类性能明显高于现有的基于特征子集区分度和特征相关性等度量的算法。再次,针对医学数据集特征之间高度相关和高度冗余的问题,提出了一种基于随机森林和序列联合搜索策略的Wrapper式特征选择算法。该算法利用随机森林善于从具有小边际效应和复杂相互作用的特征中识别主相关特征的能力,以随机森林变量重要性分数作为特征重要性度量,采用序列后向和序列前向相结合的序列联合特征搜索策略选择特征子集,以特征子集上分类器的分类正确率评价特征子集的质量,最后选择分类正确率最高的特征子集作为最优特征子集。在UCI数据集、糖尿病临床数据集和微阵列表达数据集上的仿真实验表明,本文提出的算法的分类正确率和特征子集质量均优于基于过滤式的方法和基于其它度量的方法。最后,针对微阵列表达数据集存在大量不相关特征、噪声特征和冗余特征的问题,提出了一种基于Filter和Wrapper相结合的随机森林特征选择算法。该算法首先采用Filter特征选择算法过滤掉与目标变量明显不相关的基因,然后采用基于随机森林的Wrapper特征选择算法选择最优特征子集。在Wrapper特征选择过程中,针对微阵列表达数据的特点,基于随机森林变量重要性分数,提出了序列前向特征选择和序列后向特征选择相结合、分层剔除冗余特征和不相关特征的特征搜索策略。在微阵列表达数据集上的仿真实验表明,本文提出的算法在分类正确率上优于现有的算法。
其他文献
近年来,信息处理技术和存储技术快速发展,使得相关机构可以收集大量的数据用于数据挖掘。在数据挖掘的过程中,可能需要多方数据所有者发布或共享其拥有的数据,然而,直接发布
一、国际货币体系改革的主要方案和建议  1.创立国际商品储备体系  由于许多发展中国家受初级产品和原材料价格剧烈波动的影响,国际收支状况经常恶化。一些经济学家提出了创立以商品为基础的国际储备货币,以解决初级产品价格波动和国际储备制度不稳定的问题。   主要内容包括:(1)建立一个世界性的中央银行,发行新的国际货币单位,其价值由一个选定的商品篮子来决定,商品篮子由一些基本的国际贸易产品,特别是初级产
甘草(Glycyrrhiza uralensis Fisch.)又名美草、蜜草,为豆科多年生草本植物[1],以根或根茎入药,性平、味甜,有清热解毒、润肺止咳、补脾益气、调和诸药的功效,是常用的大宗药材
可持续农业是中国对世纪国民经济可持续发展的组成部分,其内涵即农业的持续产出应建立在对资源的优化利用、生态系统动态平衡及现代技术体系支持之下。雷州半岛的特殊区位决定
《新课程标准》明确指出,初中阶段的数学教学目标是使学生掌握一定的数学知识,具备一定用数学思维进行思考的能力,学会数学思想和数学方法,提升学生对于数学的学习兴趣。如果
作为一种特殊的数据形态,数据流产生于广泛的应用领域,如传感器监测、移动对象跟踪、网络日志以及股票交易等。在数据流环境中,数据持续不断地快速到达,对这类数据无法存储全
近年来,利用蛙人等小型武器进行近岸袭击和破坏的危害性越来越大,小目标探测成为近岸警戒的主要任务之一。但在复杂的近岸浅海环境下,强噪声、强混响和强杂波的背景使小目标
含沙水流水下二维流场成像测量一直是制约河工模型实验研究的难题,现有基于光学原理的表面流场成像测量和激光CCD二维剖面流场成像测量技术均不适合于含沙水流水下流场的测量
利用计算机模拟人眼的功能准确分割图像中的目标,对于计算机视觉和图像处理至关重要。由于在实际图像中,目标可能受到噪声、遮挡、缺损或背景粘连等因素的影响,仅依赖图像本
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield