论文部分内容阅读
精神分裂症作为一组重度精神类病症,会对个人社交行为、现实感知及社会经济发展造成恶劣影响,这种复杂疾病致病因素的不确定性对其研究有着重大阻碍,而单核苷酸多态性(Single Nucleotide Polymorphism,SNP)指的是不同人之间碱基差异导致的DNA多样性,SNP在精神分裂症易感位点识别和构建疾病诊断模型上有着重大作用。伴随着机器学习和深度学习的进一步成熟,越来越多的研究人员试图从SNP数据中挖掘遗传信息并构建疾病诊断模型。本论文以精神分裂症相关SNP数据为对象进行研究,首先使用新提出的KMIGS/BH-PSO特征选择算法对原始SNP数据集进行信息SNP子集的生成;然后以信息SNP子集为输入数据设计了基于三元分区深度信念网络的模型,以实现对精神分裂症患者的临床诊断。具体研究如下:(1)为解决传统聚类算法无法有效挖掘SNP之间多位点存在的强关联性的问题,提出了新的聚类算法——K-MIGS。一方面该算法在原有K-Means聚类的基础上,引入了互信息和信息熵,提出新的相似度度量方法MIGS用以衡量多个SNP位点之间的相似度;另一方面使用新提出的SNP邻近数来初始化簇中心以解决传统K-Means随机初始化方式带来的效率低下问题。K-MIGS算法解决了传统聚类中欧氏度量方法不能挖掘到多SNP位点之间的关联性及效率过低的问题,并且极大程度上降低了SNP数据集的维数。最后将粒子群算法应用到信息SNP的选择中,按照一定原则从每个簇中选出合适的SNP,生成最终的信息SNP子集。在聚类和信息SNP生成实验中显示,K-MIGS较其他方法具有更好的聚类效果和更高的SNP重构准确度,并且在最后使用支持向量机、随机森林和神经网络对构造的SNP子集进行的分类实验中显示,对比同种特征选择方法KMeans/PSO、K-Center/PSO和不同种特征选择方法ReliefF、MCMR,K-MIGS在分类准确率上提升了3.25%~6.35%,充分说明K-MIGS聚类算法在挖掘SNP深层信息上具有更好的效果。(2)为解决传统粒子群算法在生成信息SNP子集时筛选出的SNP个数较多且收敛过慢的问题,提出改进的粒子群算法BH-PSO算法,该算法使用新的混合初始化对粒子群进行初始化,可以在选择出更少信息SNP的同时拥有更快的收敛速度;同时针对传统粒子群更新时不考虑特征的数量问题,提出了新的粒子更新策略,兼顾了分类准确度和选择的信息SNP数量。实验结果表明,对比特征选择方法K-MIGS/PSO、K-MIGS/ACO、K-MIGS/GA和ReliefF、MCMR,使用K-MIGS/BH-PSO生成的信息SNP子集具有更高的SNP重构准确度和更少的SNP个数,并且在最后使用支持向量机、随机森林和神经网络对生成的信息SNP子集进行的分类实验中准确率提升了2.18%~5.01%,再次说明了K-MIGS/BHPSO特征选择算法在信息SNP生成中具有更好的作用。(3)针对传统SNP编码模式不能有效利用SNP数据上下游生物学信息及传统深度学习分类模型应用到精神分裂症诊断上时准确率不能达到辅助医疗要求的问题,对原有深度信念网络作出以下改进:一方面将传统的SNP数据0-1-2编码模式替换为新的Triad-SNP编码,该编码模式将需要编码的SNP及上下游SNP结合构成三元SNP编码,使其SNP序列可以直接作为后续深度模型的输入;另一方面,充分利用SNP簇标签信息,将原始限制玻尔兹曼机隐含层分割为多个区,并建立分区DBN网络,用以学习属于每个不同簇的SNP数据。最后的两个实验表明三元分区深度信念网络在对精神分裂症的诊断标准上较其他模型有着显著提升,分别在准确率和F1标准上提升了6.30%~7.49%和7.27%~12.51%。