SNP选择技术及精神分裂症诊断系统的设计与实现

来源 :江苏大学 | 被引量 : 1次 | 上传用户:binguo404
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
精神分裂症是一种复发率高、发病周期长的遗传疾病,多起病于青壮年时期,给患者及家庭带来很多负担。而基于单核苷酸多态性(Single Nucleotide Polymorphism,SNP)的全基因组关联研究(Genome-Wide Association Study,GWAS)虽然已经在精神分裂症的诊断研究中取得了显著的成果,但SNP位点之间存在较多的冗余,因此,要想将SNP数据应用于复杂疾病的诊断中,就必须选择具有代表性的信息SNP子集。随着数据分析处理技术的发展,研究者可以通过机器学习从大量数据中挖掘疾病的致病机制并设计诊断模型。本文以精神分裂症为研究对象,主要探讨SNP位点的选择方法与诊断模型的构建。首先提出基于改进蚁群算法的信息SNP子集选择方法,从所有SNP中选择具有代表性的特征SNP子集,以降低冗余及噪声信息;然后设计基于随机森林的精神分裂症诊断模型;最后设计并实现精神分裂症诊断系统。本文主要包含以下三个内容:(1)针对现有信息SNP选择方法中没有考虑SNP数据体现病例SNP数据的特点,本研究基于蚁群算法提出了一种新的特征选择方法,并将其运用在SNP的选择中。本文将SNP数据特有的连锁不平衡性引入到蚁群算法的启发式函数中,重新构建启发式函数。同时,重新设计信息素更新机制,该机制可以通过自适应的调节信息素挥发速度以避免算法陷入局部最优。实验结果表明,相较于其他选择算法,新提出的LD-ACO算法构造出的信息SNP子集对非信息SNP具有更好的重构准确性,而且在分类实验的准确率上较其他方法平均提升了2.31%和3.46%。因此,本文提出的基于改进蚁群的信息SNP选择方法在信息SNP子集选择中具有更好的优势。(2)针对传统的随机森林算法在选择数据和特征时没有考虑到不同的SNP数据和特征对精神分裂症的影响程度不同的问题,本文提出一种基于权重融合的随机森林特征选择算法。首先提出一种新的数据相似度计算方法,并根据相识度权重对数据进行排序;然后提出一种新的特征评价方法,并将新提出的计算方法和卡方检验、ReliefF算法相结合,分别确定特征权重,根据序关系分析法确定3种评价准则的权重系数,按照融合模型获得的特征权重结果在特征空间进行有区分的随机选择特征;最后提出一种决策树权重计算方法,并应用到随机森林算法加权投票中。实验结果表明,本文提出的算法可以有效的提髙随机森林模型整体的泛化能力,且在计算泛化误差和分类精度等方面都具有较大的优势,在分类实验的准确率上平均提升了2.25%-3.16%。(3)在上述研究的基础之上,本文还完成了基于SNP数据的精神分裂症的智能诊断原型系统的设计与实现,包括信息SNP选择和随机森林模型构建等功能。测试表明,该系统在一定程度上提高了SNP选择的准确性和分类诊断的正确性。
其他文献
研究背景:非小细胞肺癌(non-small cell lung cancer,NSCLC)作为世界上发病率最高、死亡率最高的恶性肿瘤性疾病,尽管目前诊断、治疗的手段不断发展,但是5年生存率仅19.8%。非小细胞肺癌的发病过程中涉及了多种分子机制及多种环境等的危险因素。通过研究其相关分子通路的作用机制,有助于明确发病机制及发病过程,并且能为寻找新的诊断及治疗靶点和治疗途径提供一定的理论依据。有研究提
太平天国运动是中国历史上规模最大的一次农民起义,对于近代中国产生了深远的影响。1860年5月,太平军一举击破清江南大营。天王洪秀全命令忠王李秀成率军乘胜东征,开拓苏南,在此次行动中,隶属于苏州的常熟便成为了太平军的进攻目标。太平军一路势如破竹,连克丹阳、常州、无锡、苏州,继而略定苏南,建立了以苏州为中心的根据地苏福省。常熟是太平军在苏州地区最后攻克的一个城市,当他的近邻州县都已经被占领之时,常熟的
沙葱(Allium mongolicum Regel)是生长在荒漠、砂地和干旱山坡且深受内蒙古、新疆和宁夏等地人民喜爱的叶类蔬菜。由于含水量高、质地易受机械损伤等特点,沙葱采后容易出现干枯、萎蔫和腐烂等问题,导致其货架期较短,市场发展受到限制。故本研究以沙葱为研究对象,探究其采后生理特性和品质的变化,之后进一步研究了真空预冷、不同温度贮藏和气调包装对沙葱生理特性和品质变化的影响。其中,生理特性变化
我国正处在特高压电网的高速发展期,电网规模不断扩大,大停电事故给国民经济造成了极大的损失,严重威胁着现代社会的运行秩序。鉴于以往仿真模型都是单一沙堆模型,而电力系统
随着我国进入老龄化社会,独居老人数量不断增加,其孤独感问题十分普遍。但我国社会未对此给与充分关注,缺少缓解独居老人孤独感的应对措施。因此,寻找一种途径缓解独居老人孤
全基因组关联分析(Genome-wide association study,GWAS)是遗传研究中的重要方法,旨在人类全基因组的范围内,寻找与疾病相关的变异。近些年来在对复杂疾病的研究中取得了广泛的进展,已经成为人类复杂疾病研究中的主要策略之一。荟萃分析是全基因组关联分析中重要的分析方法之一,它是通过收集多个研究的GWAS结果,将这些数据综合进行二次分析,从而实现更大的有效样本量,提高发现新关联
我国是一个煤炭生产与消费大国,煤炭资源在我国的能源消费结构中占有很大比重,在未来很长一段时期内,煤炭的主体能源地位不会改变。我国煤矿大多进行地下开采,煤矿井筒作为运输人员和货物的主要通道,在煤矿生产中起着重要作用,但是随着煤矿开采活动的持续进行,多种因素可能会导致煤矿井筒发生变形破坏,所以需要对煤矿井筒进行实时监测,并对可能出现的破坏情况进行及时预警,以此来保障煤矿的安全生产。本文首先对国内外研究
中国共产党自成立起,始终坚持马克思主义人民群众观,全心全意为人民服务,为人民谋求利益。习近平继承和发展了这一人民群众观,并赋予其新的时代特点,饱含着丰富的理论价值和重要意义。本文论述了习近平人民群众观的理论来源、主要内容和人民群众观在践行过程中的体现。本研究认为马克思主义唯物史观中的人民群众观、中国共产党人在不同时期形成的人民群众观,以及中国优秀传统文化中的民本思想是其理论来源。研究分析了习近平人
近年来,化石燃料燃烧所引发的环境污染问题,促使我们不断寻找成因和改善方法。通常认为汽车尾气是造成空气污染的主要原因之一,发展新能源电动汽车在治理汽车尾气的同时能够
长期以来,害虫的生物防治主要以作物生境为中心,极少关注农业景观中的非作物生境。一般而言,农事操作(如作物周期性的收获和播种)常导致作物生境频繁受到人为干扰。在大面积单一作物种植条件下,作物生境并不能为天敌昆虫提供一个稳定的环境。农田周围的森林、灌木等非作物生境则为天敌昆虫提供了越冬越夏庇护所、植物花蜜等补充营养和替代寄主或猎物,对维持田间天敌群落的稳定具有重要意义。松毛虫卵是田间多种害虫卵寄生蜂的