基于新一代测序数据的SNV检测方法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:zhaokfq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着新一代测序技术的快速发展,利用测序数据对癌症的发展与进化研究正在突飞猛进。造成癌症的因素往往多且复杂,但基因突变是造成癌细胞发生与发展的根本原因,其中生殖细胞突变与癌症疾病的遗传息息相关,而体细胞突变被认为癌症后天发展的主要因素之一。因此本文对体细胞的单位点突变检测进行了相关研究。检测体细胞单位点突变的方法大致分为两类:一是通过检测SNP,并将检测的结果和现有数据库进行比对,找到有意义的突变位点,这种方法的好处是检测出了目前已经验证的并且在临床上有意义的位点,但是如果研究肿瘤的其他位点的信息或是疾病之间的联系时,这种方法并不适合,所以这种方法适合应用的临床上;还有一类方法是针对正常-肿瘤配对样本检测体细胞突变的方法,这种方法需要考虑两个样本之间的关系以及样本的数据特性,所以这种方法大多用的是贝叶斯。但是针对肿瘤纯度较低时,目前存在的方法检测结果有很大的差异性。通过分析样本特性和实际应用需求,本文提出了一种基于单肿瘤样本的改进SNP的算法,考虑了样本中的比对质量,并重新计算阈值来候选SNV。并通过仿真实验与其他方法进行了性能比较,验证了该算法的有效性。同时将该方法应用于真实的乳腺癌数据中,并对其检测结果进行了注释,所提的算法对EGA1数据样本进行了分析,检测结果中包含64个有意义的突变位点,通过和COSMIC数据库和Clinvar数据库比对,注意到其中的ANF280D和AKAP9两个基因与导管乳腺癌相关;在EGA2数据上的分析,检测出和导管乳腺癌相关的基因有TCE3和PRKC。针对正常-肿瘤配对样本,本文构造了52个特征向量,用仿真数据对四种分类算法(贝叶斯、SVM、逻辑回归、随机森林)进行训练,并通过仿真数据分析了四种分类模型的性能,发现随机森林模型的效果最好。于此同时将四种分类模型与其他基于肿瘤-正常配对样本的SNV检测方法进行了比较,并对构造的52个特征进行了重要性分析,发现肿瘤样本的碱基颠倒和正常样本中的质量对SNV的检测有很大影响。最后,将训练好的四种模型应用在3组真实乳腺癌序列样本中,进行SNV检测,并对四种模型共同检测出的结果进行注释,在EGA1数据上显示出有和宫内发育迟缓的两个基因PRKCQ和CRYZ,EGA2数据上显示出和导管乳腺癌相关的两个基因TCE3和PRKCZ。
其他文献
本文介绍了《三块广告牌》电影的主要剧情,分析了《三块广告牌》电影中的矛盾美,探讨了电影中人与人之间的不理解,主要包括:电影的矛盾引发点:不解与冷漠;电影中的过渡:从质
目的 研究原发性高血压患者血管紧张素Ⅱ 1型受体 (AT1R)基因A116 6C多态性分布及不同基因型的高血压患者对AT1R拮抗剂伊贝沙坦的治疗反应。方法 采用聚合酶链反应法检测所
幼儿教师的专业发展是一项艰巨的任务。我结合自己幼儿园的实践经验,认为可以从教师拥有发展自主权、领导者为教师提供成长支持和保障、团队建立合作互助三个维度的相互关系
提出一种基于S3C2440平台的图像采集与传输系统的设计方案,介绍系统的硬件设计及工作原理,论述图像采集的实现过程,给出通过GPRS实现图像数据的传输。通过实验表明,该系统在
黄海是一个具有特殊性质的浅海海域,夏季具有很强的温跃层。现场观测和SAR遥感研究结果表明,该海域存在强盛的半日和全日内潮,在该海域的西部和北部内潮的特性基本上是线性的
近年来中职数学课堂教学困难重重,学生的数学成绩合格率普遍较低,这既有学生方面的原因,也有教师教学方面的原因。为此,教师在教学中要转变教育观念,改革教学方法,培养学生的
大气下陷证为临床常见病证,因其病情严重,临床表现复杂多样,诊治过程中容易误诊、故本文试图依据“内经”并诸家所论,从大气下陷的成因症治诸方面做一论述,不足之处,敬请各位
建筑是文化的载体,建筑文化在其诸多构成因素影响下,不断传承与创新。本文试图从传统建筑文化三个方面的属性,来概括对其内涵精神的认识;并通过黄金乡政府办公楼及会所的方案
高校的金工实训中心设计不同于企业工厂的车间布局设计,怎样才能设计出一座建设费用较低而又符合现实需求的金工实训中心是目前的一大研究课题。文章利用SLP方法,以非物流关
目的:观察推拿结合降钙素对原发性骨质疏松疼痛及功能活动的影响。方法:选择符合纳入标准的骨质疏松症患者 88 例,完全随机分入两组。治疗组 44 例,给予推拿手法结合降钙素治