论文部分内容阅读
机器学习技术在生物医学等领域得到广泛应用与关注,特别是基于机器学习的癌症患者分类诊断、各种疑难疾病患者的分类诊断成为人工智能领域学者关注的热点。高通量测序技术使得高维的癌症基因表达数据极易获得。但这类数据的样本量通常较少,从而成为高维小样本数据。分析该类数据的关键和首要步骤就是特征选择,剔除不相关的、冗余的基因,保留癌症致病基因,提高癌症患者的诊断准确率。疑难疾病诊断中,患者经常伴有各种不相关的并发症状,这些并发症状会影响医生对病人的诊断结果,正确诊断是挽救病人生命的关键。特征选择技术可以有效发现患者的关键致病因素,帮助医生做出正确判断。极限学习机(Extreme Learning Machine,ELM)是一类基于前馈神经网络的机器学习算法,其主要特点是输入权重和阈值可随机给定且无需调整,学习过程仅需通过计算输出权重来实现。ELM具有学习效率高且泛化能力强的优点,被广泛应用于分类、回归、聚类等问题中。因此,本文将ELM引入特征选择过程,对特征子集进行评估,提高特征选择过程的效率。本文主要工作和创新点如下:(1)提出了基于同质极限学习机分类器集成的特征选择算法EEGFS(Ensemble ELM and G-score based Feature Selection):在 Filter 过程中,采用 G-score对特征进行排序;在Wrapper过程中,采用扩展的顺序前向浮动搜索(Sequential Forward Floating Selection,SFFS)策略搜索特征子集,通过引入极限学习机参与Wrapper过程,提高特征选择效率;充分利用极限学习机参与wrapper过程产生的多个特征子集,在这些特征子集上构造模型得到不同的基分类器,并将基分类器进行集成以得到最终的分类结果。(2)提出了基于K-ELM的特征子集集成特征选择算法:针对特征子集不稳定问题,本文基于样本采样技术采集到不同训练子样本,在这些子样本上分别进行特征选择,产生不同特征子集,通过特征子集集成策略得到集成后的特征子集。基因数据集上的实验结果表明,本文算法在一定程度上提高了特征子集的稳定性并且对于数据变化具有较强的鲁棒性,同时也保证了特征子集的区分能力。(3)提出了基于ELM、K-ELM、EM-ELM异质ELM分类器的集成特征选择算法,并应用于红斑鳞状皮肤病诊断:分别将ELM、EM-ELM、K-ELM引入特征选择过程以评估特征子集,采用扩展的顺序前向搜索SFS(Sequential Forward Selection)策略搜索特征,提出三种特征选择算法;通过改变三种学习算法的参数探究其对特征选择结果的影响;将三种特征选择算法所选特征子集对应的分类器进行集成,提高红斑鳞状皮肤病的诊断准确率。