基于基因表达数据挖掘的帕金森疾病预测模型

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:shuo19871108
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着计算机软硬件技术的发展,人工智能和大数据技术得到了深入的研究。将人工智能技术与生物信息学知识相结合,对各种临床中疑难杂症的发病机理进行探寻,发掘其致病基因,并利用基因表达数据的信息进行疾病预测和辅助诊断有着极大的发展前景。帕金森疾病作为一种遗传疾病,目前其发病机理和致病原因尚未明确,医学上对其也缺乏有效的治疗方法,利用数据挖掘技术去寻找帕金森疾病的发病基因,并对其发病进行预测有着非常重要的研究意义。  本论文基于美国国立生物技术信息中心(NCBI)的GEO数据库中的帕金森患者基因表达数据,探寻帕金森疾病的致病基因,并试图通过人类的基因表达数据对帕金森疾病进行预测。具体研究内容如下:  针对基因表达数据易产生缺失值的现象,提出了一种 t 检验-遗传算法缺失值填充方法,该方法在进行缺失值填充的同时,可以对数据特征进行初步的筛选。此外,针对常用的缺失值填充方法结果误差较大的情况,提出了一种改进的k近邻缺失值填充算法。使用多种方法进行缺失值填充,研究结果表明,使用t检验-遗传算法填充缺失值后,特征基因筛选的召回率为 100%,远高于常用的均值法、k 近邻法填充缺失值后所筛选的特征基因召回率,可以将特征基因无遗漏地筛选出来。但t检验-遗传算法填充结果损失较高,准确率也较低,尚有优化的空间。使用改进的k近邻缺失值填充算法所得结果的损失要远小于其他方法的结果,同时也拥有极高的准确率和较高的召回率。改进的k近邻缺失值填充算法拥有十分理想的性能。  对帕金森疾病基因表达数据进行特征选择。分别采用t检验(p<0.01)和相关性方法对帕金森基因表达数据进行特征选择。分类结果表明,t 检验(P<0.01)特征选择的结果较相关性方法可以使分类器的性能达到最优。  使用特征选择后的基因表达数据进行疾病预测模型构建。分别使用XGBoost、支持向量机(SVM)、决策树、贝叶斯、随机森林构建基因表达数据疾病分类模型,采用交叉验证的方式对分类器性能进行评价。实验结果表明,在不同的特征选择条件下, XGBoost分类器均有较出色的表现,准确率和AUC值均明显高于其他分类器,能够更加准确快速的对帕金森疾病进行预测诊断。通过 XGBoost 构建的疾病预测模型,得到了与帕金森疾病相关的重要特征基因,为寻找帕金森疾病的致病基因提供理论依据。
其他文献
目前,超低轨道卫星越来越受到重视。由于轨道高度非常低,在进行高分辨率对地遥感观察时,可以显著降低有效载荷的重量和功耗,就算采用普通分辨率观察设备也能实现高分辨率观察。因
随着半导体技术的进步和信息产业的飞速发展,射频/微波半导体器件应用于越来越广泛的领域,因此人们对器件参数的测量愈发关注。不仅器件的生产者要研究如何准确测量器件的参
我国的体育教学,始终在单纯传授体育知识技能或单纯身体锻炼的低层次上止步不前,普遍忽视对学生体育精神要素的挖掘. 体育教学蕴含着许多德育内容,可以培养学生的坚强意志和
神奇的光rn隔着玻璃,我们若想拍摄橱窗里面的东西,总是被玻璃那恼人的反光所影响;在阳光的直射下,我们一般很难看清水中的鱼儿,因为阳光在水面的反光只会让我们看到波光粼粼
外系统等效器主要用于弹上控制、平台、速率陀螺、伺服系统与测量系统的接口,产生模拟、数字及开关指令信号,用于在试验室、总装厂以及技术阵地全面模拟外系统配合测量系统进
随着网络技术的蓬勃发展,以太网以其协议通用性、远距离传输、灵活的网络拓扑以及不断发展的网络带宽等诸多优势,被广泛应用到测试领域。网络化自动测试系统主要针对分布式测
学位
目前,哈尔滨工业大学自动化测试与控制研究所提出了用于仿真、试验及训练等领域的体系结构(HIT-TENA),并且开发了相应的支撑软件(HIT-TENA支撑软件平台)。通常情况下,在试验系统中
铝合金小弯曲半径薄壁弯管具有强度高、质量轻、易节省空间等特点,在航空、航天、汽车等领域被广泛应用。数控绕弯是管材弯曲成形的主要加工方法之一,由于数控绕弯成形是一个
随着碳纤维增强树脂基复合材料、高聚物复合材料大量应用到航空航天领域,这些材料的粘弹性特征和渐进损伤破坏形式受到人们越来越多的关注。研究碳纤维树脂复合材料的本构关