论文部分内容阅读
医学数据挖掘是数据挖掘技术的重要研究方向,多年来始终是计算机科学和医学领域的研究热点。近年来,医学数据挖掘对象正逐渐由临床诊断数据转变到基因芯片数据。目前,许多优秀的数据挖掘算法被应用于各种医学研究工作中,如决策树、支持向量机和人工神经网络等。然而,医学数据所固有的高维特征空间、高度特征冗余、特征高度相关、样本类别不平衡等特点以及医学研究对于数据挖掘结果的可理解性要求,使得传统的数据挖掘算法难以直接应用于医学数据挖掘任务中。随机森林算法是一种基于决策树的集成机器学习算法。一方面,随机森林因为具有分类精度高、运算速度快、能够从具有小边际效应和复杂相互作用的特征中识别主相关特征的优点,在医学数据分析中得到广泛应用;另一方面,有研究表明随机森林在类别不平衡数据集和高维数据集上,其分类能力和稳定性会受到削弱。针对医学数据集的特征高维性、冗余性、相关性以及样本类别不平衡等问题,本文以UCI标准数据集、糖尿病临床诊断数据集和基因芯片数据集为对象,研究了基于随机森林的特征选择和数据分类方法,主要开展了以下几个方面的工作。首先,针对医学数据集的样本类别不平衡问题,提出了一种基于有放回地随机重采样技术和集成机器学习思想的随机森林改进算法。该算法首先从原始训练数据集中利用有放回地随机重采样技术构建样本类别平衡的数据集,然后在每一个采样数据集上训练随机森林分类器,最后所有采样数据集上生成的随机森林分类器通过多数投票方式确定未知样本的分类类别。在UCI数据集上的实验结果表明,与传统的基于随机降采样和基于代价敏感的方法相比,本文提出的算法能够有效提高分类器的分类性能尤其是少数类样本的查全率。其次,针对医学临床数据集的高维特征空间和特征间高度相关问题,提出了一种基于随机森林的Filter式特征选择算法。该算法首先基于随机森林变量重要性分数对数据集中的特征进行排序,然后通过迭代实验确定特征选择的阈值,选取重要性分数最大的前若干个特征构成特征子集,最后在选出的特征子集上训练分类器。在UCI数据集和糖尿病临床数据集上的实验结果表明,基于随机森林变量重要性分数的算法的分类性能明显高于现有的基于特征子集区分度和特征相关性等度量的算法。再次,针对医学数据集特征之间高度相关和高度冗余的问题,提出了一种基于随机森林和序列联合搜索策略的Wrapper式特征选择算法。该算法利用随机森林善于从具有小边际效应和复杂相互作用的特征中识别主相关特征的能力,以随机森林变量重要性分数作为特征重要性度量,采用序列后向和序列前向相结合的序列联合特征搜索策略选择特征子集,以特征子集上分类器的分类正确率评价特征子集的质量,最后选择分类正确率最高的特征子集作为最优特征子集。在UCI数据集、糖尿病临床数据集和微阵列表达数据集上的仿真实验表明,本文提出的算法的分类正确率和特征子集质量均优于基于过滤式的方法和基于其它度量的方法。最后,针对微阵列表达数据集存在大量不相关特征、噪声特征和冗余特征的问题,提出了一种基于Filter和Wrapper相结合的随机森林特征选择算法。该算法首先采用Filter特征选择算法过滤掉与目标变量明显不相关的基因,然后采用基于随机森林的Wrapper特征选择算法选择最优特征子集。在Wrapper特征选择过程中,针对微阵列表达数据的特点,基于随机森林变量重要性分数,提出了序列前向特征选择和序列后向特征选择相结合、分层剔除冗余特征和不相关特征的特征搜索策略。在微阵列表达数据集上的仿真实验表明,本文提出的算法在分类正确率上优于现有的算法。