基于SVM-RFE的滤噪算法及不平衡问题的研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:yinzhg01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
代谢组学定量的分析生物体内的代谢产物,并对代谢产物与生理病理变化之间的关系进行研究。代谢组学数据中包含大量的噪音属性和无关属性,将数据挖掘技术应用于代谢组学数据中,有助于降低数据的复杂度,发掘潜在的代谢标志物,进而对疾病的诊断和临床应用有着重要的辅助作用。SVM-RFE是一种基于SVM的递归特征消除算法,通过支持向量来计算每个特征的权重。代谢组学数据中的噪音属性很可能会对SVM最优超平面的构建产生影响,进而影响到对特征的评价。因此,本文提出了一种基于互信息和人工变量的MI-SVM-RFE特征选择方法,在SVM-RFE特征选择之前使用人工变量-互信息的方式进行滤噪,使得特征权重的计算更为精确,进而筛选最优的特征子集。将MI-SVM-RFE算法应用于肝病代谢组学数据上,筛选出了34个具有显著区分能力的代谢产物,在区分肝炎、肝硬化、肝癌时,MI-SVM-RFE算法的平均准确率为74.33±2.98%,高于SVM-RFE算法的72.00±4.15%。对于SVM分类器,样本数量不平衡问题可能会导致各类样本中的支持向量数量不平衡或支持向量分布不平衡,从而使得SVM对少数类的样本分类效果较差。因此,本文在使用SVM-RFE特征选择方法时引入EFSBS的思想,提出了EFSBS-SVM-RFE算法,该算法有助于对不平衡数据的分析和理解,更好的筛选生物标志物。将EFSBS-SVM-RFE算法应用于品种初烤烟叶化学成分检测数据上,筛选出了15个富含2类样本区分信息的化学成分,较好的区分了两类不同品种的烤烟。SVM-RFE是一种后向的特征选择方法,基于多变量分类器对特征空间不断优化。FFS-ACSA是一种前向的特征选择方法,基于单变量分类器,考虑了特征之间的互补性。为了更好的筛选具有区分能力的特征,建立更为有效的分类模型,本文将FFS-ACSA与SVM-RFE相结合,提出一种组合的特征选择方法Forward-RFE,充分利用前向特征选择方法FFS-ACSA和后向特征选择方法SVM-RFE的优势,在四组公共数据集上对该算法的性能进行了验证。
其他文献
经口气管插管的患者因不能进食,从而导致口腔唾液分泌较少,口腔的自我清洁功能减退,另外抗生素的大量使用也会导致菌群的失调,导致患者口腔病菌大量繁殖[1]。有研究表明[2],
本文综述了基础英语教学的现状,分别阐述了听,说,读,写,译这五项专业技能在本门课程中的培养,在此基础上,谈谈自己对本门课程的看法。
情绪、情感,是人对客观事物是否符合自己需要、愿望和观点而产生的体验,是人对客观事物的一种特殊的反应方式。表现为:或高兴、欢乐,或忧愁、悲伤,或赞叹、喜爱,或惊恐、厌恶。结合
人脸识别,特指分析比较人脸视觉特征信息进行身份鉴别的计算机技术。人脸识别也是模式识别与人工智能的研究热点之一。它在访问控制、司法应用、电子商务和视频监控等领域都
甲型H1N1流感是一种急性呼吸道传染病,如果治疗不及时,部分患者病情可迅速发展,重症及危重症病例可并发严重肺炎,甚至死亡[1]。高危人群包括妊娠期妇女。本文回顾性分析我院
一、自制组装实验一:自制简易浮力演示器的制作及使用方法浙江教育出版社出版的科学教科书中的浮沉条件知识是通过改变盐水的密度从而实现盐水中鸡蛋的浮沉实验中得出。是否可
心脑宁片心由人参、当归、川芎、黄芪等组成,具有活血化瘀,益气安神,用于冠心病,脑血栓形成等,亦可用于记忆力减退,抗衰老等作用疗效较好。为探究其作用原理,我们进行了心脑宁片对地
目的探讨腰硬联合麻醉(CSEA)用于经尿道前列腺电切术(TURP)手术时的临床效果及安全性。方法本文随机选择ASAⅡ~Ⅲ级行TURP的患者200例,随机分为2组,每组100例。Ⅰ组行CSEA,腰麻药
中央决定实施从紧的货币政策。这是党中央、国务院审时度势,高瞻远瞩,为防止经济增长由偏快转为过热,防止价格由结构性上涨演变为明显通货膨胀,促进国民经济又好又快发展作出的重
近几年中小学教育逐渐由应试教育向素质教育转变,新课程标准强调要培养学生的探究能力,重要的是在探究过程中逐步培养学生用科学的方法去探究。比较法是通过事物间相同特征或相