生物医学数据的整合式特征选择算法研究

来源 :吉林大学 | 被引量 : 2次 | 上传用户:benxiaohai10000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
医学的数字化发展带来了大量的生物医学数据,对这些数据的建模有助于研究人员诊断和治疗疾病,理解疾病的发病原理。生物医学数据主要分为生物组学数据和医学数据两种类型。生物医学数据具有复杂性,数据存在大量的冗余特征和噪声,很多特征可以被其他数据所代替,并且特征之间高度相关。对生物医学数据的精准建模及预测结果,关系到医学决策。生物医学数据挖掘的关键是设计出高性能模型。机器学习是生物医学领域建模分析的重要方法。特征选择是机器学习领域的重要技术,特征选择的目标是从数据的特征空间中找到产生最佳建模性能的特征子集。这样可以大幅降低特征维度,减少计算成本,有利于后续的建模。选择出来的特征子集既可以使模型具备更高性能,又能够更加直接地展示出数据的内在关联关系。传统特征选择算法难以在生物医学数据上获得良好的模型性能。整合式特征选择算法可以根据生物医学数据的特点,将多种特征选择方法组合在一起,从而获得更准确并且更稳定可靠的分类结果。针对生物医学数据特征选择中的关键问题,以转录组组学数据,甲基化组学数据和医学数据为对象,本文提出了3个整合式特征选择算法。研究内容概括如下:1.针对生物组学数据的高维度小样本和特征间的高冗余性,高相关性的问题,提出了动态递归特征消除(d RFE)框架。d RFE算法首先采用t检验对特征集合进行筛选,然后训练一个有监督的模型,分别删除不同个数的模型系数最小的特征进行测试,计算删除相应特征后模型的分类性能,选出在当前迭代中产生最佳模型性能的特征集合。在18个转录组组学数据和5个甲基化组学数据上的对比实验结果表明,d RFE算法在大多数情况优于现有的11种特征选择算法。2.针对高维生物组学数据中存在大量不相关特征和冗余特征的问题,提出了整合式群体智能特征选择算法Zoo。Zoo算法首先采用t检验筛选出1000个特征,然后整合了9种基于群体智能的特征选择算法,对所选特征进行投票,最后采用动态递归特征消除(d RFE)框架进一步细化特征子集。实验证明,Zoo算法在转录组组学数据集和甲基化组学数据集上的性能表现均优于现有的9种特征选择算法。3.针对医学数据的特征之间关系复杂和冗余性的问题,提出了整合种群自适应权重灰狼优化特征选择算法(PAWGWO)。首先提出新型自适应内部学习灰狼优化算子NAILGWO,以解决标准GWO算法仅向三个最佳的搜索代理学习,导致算法遗漏了其他搜索代理附近优秀解的问题。提出饥饿区域信息重启(HAIR)策略,每次迭代随机选择种群中的一部分灰狼,使其在其他优秀的搜索代理附近进行探索,以增强局部搜索能力。在8个医学数据集和24个其他领域的基准数据集上对PAWGWO算法进行性能评估,并与其他10种元启发式算法和8种非元启发式特征选择算法进行对比,实验证明了PAWGWO算法在大多数情况下优于现有的特征选择算法。
其他文献
研究背景:急性肾损伤(Acute kidney injury,AKI)幸存者中会有部分患者发生肾脏纤维化,并逐渐进展至慢性肾脏病(Chronic kidney disease,CKD)和终末期肾病,这给国家医疗和个人家庭带来沉重的经济负担。损伤后修复不良的肾小管上皮细胞是肾脏纤维化的主要因素。肾小管上皮细胞重吸收功能的正常发挥需要大量的能量供应,因此含有丰富的线粒体,并且主要依赖于脂肪酸氧化(Fa
学位
牙周炎是发生在牙周支持组织的慢性炎症性疾病,导致牙槽骨进行性破坏,是成人失牙的主要原因。传统的牙周炎治疗手段,如龈上洁治术、龈下刮治术、翻瓣术和膜龈手术等,均以控制炎症和减少牙周袋深度为目的,而不能重建受损的牙周组织。引导组织再生术(GTR)是以修复牙周支持组织和创建新的牙周附着为目的的治疗手段,其原理是利用膜性材料作为物理屏障,防止牙龈上皮和结缔组织侵入缺损区,为牙周膜细胞和成骨细胞创造足够的空
学位
为了研究前黑色素小体蛋白17(pre-melanosomal protein 17,PMEL17)基因第10外显子上有关显性白羽突变的基因频率和基因型频率在雪域白鸡群体中的分布情况,试验采用PCR-RFLP方法分析基因型,利用POPGENE 1.32软件计算基因型和基因频率,用SPSS 20.0软件进行哈代-温伯格平衡适合性检验。结果表明:雪域白鸡群体中PMEL17基因有Ⅱ、Ii和ii 3种基因型
期刊
多发性硬化(MS)是一种以中枢神经系统(CNS)白质脱髓鞘为特征的自身免疫性疾病。目前MS的缓解期治疗以DMT药物为主,但其疗效有限,且可能出现严重的不良反应,因此探寻新的治疗方法极为重要。实验性自身免疫性脑脊髓炎(EAE)作为MS的经典动物模型,在MS的科学研究中被广泛应用。CD4+T细胞中的两种细胞亚型Th1、Th17可释放促炎性细胞因子,破坏血脑屏障,并向中枢迁移,诱导CNS炎症,导致白质脱
学位
变应性鼻炎(allergic rhinitis,AR)是指特应性个体鼻黏膜暴露于变应原后发生的主要由免疫球蛋白E(immunoglobulin E,Ig E)介导的的非感染性慢性炎性反应。AR主要表现为打喷嚏、鼻痒、鼻塞和流清水样涕等症状。流行病学调查表明,在过去的几十年中AR的发病率逐渐增加,目前影响全世界人口的10%~40%。AR不仅影响生活质量,也可造成巨大的社会经济负担,已经成为全球性健康
学位
背景及目的孢子丝菌病(Sporotrichosis)是申克孢子丝菌及其卢里变种引起的皮肤、皮下组织、黏膜及淋巴系统的感染性疾病,偶可播散至全身引起多系统的损害。近年来孢子丝菌病发病率逐年上升,目前常用的治疗方法主要有抗真菌药物、光动力、温热疗法、冷冻和外科手术等,但效果不尽人意。随着对孢子丝菌病发病机制研究的不断深入,人们发现NOD样受体热蛋白结构域相关蛋白 3(NOD-like receptor
学位
报纸
目的:1.建立局部视网膜内铁离子过载的动物模型。探究视网膜内铁离子过载导致的视网膜退行性改变。2.探究视网膜内铁离子过载导致年龄相关性黄斑变性(Age-related macular degeneration,AMD)的发生机制。3.探究氘代二十二碳六烯酸(Deuterated-docosahexaenoic acid,D-DHA)对铁离子导致AMD改变的保护作用。4.探究膜铁转运蛋白和铜蓝蛋白对
学位
生物医学文献是生物医学领域获取知识的主要来源,这些丰富的知识在推动着健康、治疗理念、预防保健以及医疗管理等方面有着重要意义。呈指数级速度增长的医学文献因所涉及的内容巨大,已远远超出人类以传统方式获取知识的能力。从海量的电子文献中准确地获取有价值的、关键的医学知识,成为研究热点。本文针对信息抽取中语义信息丢失、外部资源利用不充分以及样本信息利用率不高等问题,以生物医学文本信息表示、语义知识利用及深度
学位
核糖核酸(Ribo Nucleic Acid,RNA)是生物体中重要的生物大分子,可以通过催化、翻译、基因调控等多种方式参与生命活动和复杂疾病的发生发展。研究表明RNA二级结构影响RNA与其他分子的交互和功能的发挥,同时相同家族的非编码RNA(non-coding RNA,ncRNA)具有相似的功能,因此预测RNA二级结构相关内容以及识别ncRNA家族可以促进RNA功能的研究。在RNA二级结构相关
学位