基于SNP的特征选择及精神分裂症诊断模型研究

来源 :江苏大学 | 被引量 : 0次 | 上传用户:s2580017
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
精神分裂症作为一组重度精神类病症,会对个人社交行为、现实感知及社会经济发展造成恶劣影响,这种复杂疾病致病因素的不确定性对其研究有着重大阻碍,而单核苷酸多态性(Single Nucleotide Polymorphism,SNP)指的是不同人之间碱基差异导致的DNA多样性,SNP在精神分裂症易感位点识别和构建疾病诊断模型上有着重大作用。伴随着机器学习和深度学习的进一步成熟,越来越多的研究人员试图从SNP数据中挖掘遗传信息并构建疾病诊断模型。本论文以精神分裂症相关SNP数据为对象进行研究,首先使用新提出的KMIGS/BH-PSO特征选择算法对原始SNP数据集进行信息SNP子集的生成;然后以信息SNP子集为输入数据设计了基于三元分区深度信念网络的模型,以实现对精神分裂症患者的临床诊断。具体研究如下:(1)为解决传统聚类算法无法有效挖掘SNP之间多位点存在的强关联性的问题,提出了新的聚类算法——K-MIGS。一方面该算法在原有K-Means聚类的基础上,引入了互信息和信息熵,提出新的相似度度量方法MIGS用以衡量多个SNP位点之间的相似度;另一方面使用新提出的SNP邻近数来初始化簇中心以解决传统K-Means随机初始化方式带来的效率低下问题。K-MIGS算法解决了传统聚类中欧氏度量方法不能挖掘到多SNP位点之间的关联性及效率过低的问题,并且极大程度上降低了SNP数据集的维数。最后将粒子群算法应用到信息SNP的选择中,按照一定原则从每个簇中选出合适的SNP,生成最终的信息SNP子集。在聚类和信息SNP生成实验中显示,K-MIGS较其他方法具有更好的聚类效果和更高的SNP重构准确度,并且在最后使用支持向量机、随机森林和神经网络对构造的SNP子集进行的分类实验中显示,对比同种特征选择方法KMeans/PSO、K-Center/PSO和不同种特征选择方法ReliefF、MCMR,K-MIGS在分类准确率上提升了3.25%~6.35%,充分说明K-MIGS聚类算法在挖掘SNP深层信息上具有更好的效果。(2)为解决传统粒子群算法在生成信息SNP子集时筛选出的SNP个数较多且收敛过慢的问题,提出改进的粒子群算法BH-PSO算法,该算法使用新的混合初始化对粒子群进行初始化,可以在选择出更少信息SNP的同时拥有更快的收敛速度;同时针对传统粒子群更新时不考虑特征的数量问题,提出了新的粒子更新策略,兼顾了分类准确度和选择的信息SNP数量。实验结果表明,对比特征选择方法K-MIGS/PSO、K-MIGS/ACO、K-MIGS/GA和ReliefF、MCMR,使用K-MIGS/BH-PSO生成的信息SNP子集具有更高的SNP重构准确度和更少的SNP个数,并且在最后使用支持向量机、随机森林和神经网络对生成的信息SNP子集进行的分类实验中准确率提升了2.18%~5.01%,再次说明了K-MIGS/BHPSO特征选择算法在信息SNP生成中具有更好的作用。(3)针对传统SNP编码模式不能有效利用SNP数据上下游生物学信息及传统深度学习分类模型应用到精神分裂症诊断上时准确率不能达到辅助医疗要求的问题,对原有深度信念网络作出以下改进:一方面将传统的SNP数据0-1-2编码模式替换为新的Triad-SNP编码,该编码模式将需要编码的SNP及上下游SNP结合构成三元SNP编码,使其SNP序列可以直接作为后续深度模型的输入;另一方面,充分利用SNP簇标签信息,将原始限制玻尔兹曼机隐含层分割为多个区,并建立分区DBN网络,用以学习属于每个不同簇的SNP数据。最后的两个实验表明三元分区深度信念网络在对精神分裂症的诊断标准上较其他模型有着显著提升,分别在准确率和F1标准上提升了6.30%~7.49%和7.27%~12.51%。
其他文献
中国的传统文化历史悠久,在5000多年的长河中不断的经历着岁月的洗礼,有平静,有浪花,亦有波涛澎湃,其中的优秀成分被称为中华优秀传统文化。它不仅拥有巨大的创造力和广泛的世界影响力,而且内容涉及甚广,有物质层面的文物遗迹,有精神层面的民族自信,也有广为流传的工艺技术,不论哪个层面均与化学有着密不可分的关系,如丹霞地貌的色彩涉及铁元素的含量、侯德榜制碱的创新精神、古代的炼铁技术。因此,化学不仅是一门研
文物被深埋于地底下上千年,出土时碎片数量多且受到不同程度的损坏,为文物修复工作带来了很大的难度。文物数字化虚拟复原技术是目前文化遗产数字化保护领域研究的热点,现有
随着3D技术的快速发展,3D电影和电视在日常生活中越来越重要,并吸引着全球关注。但是在3D图像的获取、传输和存储过程中,会引入不同程度和类型的失真,造成立体图像内容失真,
无线传感器网络是通过多个传感器节点监视、感测和处理节点数据,向用户传播节点信息的分布式无线网络。通常部署在无基础设施,无人看守的恶劣环境,由于其部署快速、耐抗毁性
本文分别研究了在阈下信号和阈上信号刺激下,离子通道噪声对神经元新陈代谢能量损耗的影响,同时研究了神经元对温度的适应性。首先简单介绍了神经元基本的动力学性质和神经元
随着我国的综合国力与国际影响力不断提高,许多国家也以更加积极的姿态加强与中国多方面的联系。作为世界各国的汉语爱好者学习汉语、了解中国的重要窗口之一,孔子学院在世界范围内越来越被人们所熟知,影响范围越来越大。与此同时,汉语教师志愿者们不断地远赴世界各个国家,在当地教授汉语与分享中华优秀文化。由此相关,汉语教师志愿者的跨文化适应问题引起了不少学者的关注。迄今为止,很多学者已经围绕这一主题进行了不少相关
国际中文课堂是教师讲授知识、学生学习汉语的主要平台,也是师生进行跨文化交际的主要语境。在语境的制约下,教师需要巧妙地借助言语行为,帮助其构建不同的语用身份,以便能够使用恰当的教学方法与有效的课堂管理策略,推动各个教学环节的有序开展。该研究以陈新仁教授的语用身份理论和Verschueren的顺应理论为理论依据,以《国外汉语课堂教学案例》中教学语境及师生之间交际使用的话语为参考语料,对国际中文教师语用
Hashtag是社交平台中常用的一种主题标签标注方式,它可有效地提高信息组织和信息检索的效率,从而提高社交平台的便捷性和易用性。标注Hashtag是一个繁琐费时的过程,因此社交
基于稀疏表示的方法在图像超分辨率重建中表现良好,但是传统的稀疏表示独立考虑图像块之间的稀疏性,会导致重建图像损失部分纹理结构。本文提出一种基于局部结构相似与稀疏表
初中班主任是班级的管理者,是班级的灵魂,更是中学生们成长过程中的人生导师。由此可见,初中班主任工作是初中教育中相当重要的一项工作。初中班主任的职业幸福感如何,对学生能否健康成长和全面发展起着至关重要的作用。换言之,只有幸福的初中班主任,才能培养出具有幸福感的孩子。因此,关注初中班主任的职业幸福感,提升初中班主任的职业幸福感就显得尤为重要。提升班主任的职业幸福感,最终还是为了学生的发展,为了教育事业