基于多维度SNV特征的癌症分类

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:my363
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着DNA测序技术的不断发展,日益增加的DNA序列数据在不同领域的应用得以进入一个快速发展的阶段。癌症是导致人类预期寿命缩短的主要原因,早期诊断对于降低癌症死亡率非常重要。近年来,研究者们对于癌症分类的相关研究投入了大量的精力,但目前主要的分类方法往往只能适用于固定的几种癌症,并且检测周期长、分类精度低。因此,如果能发现一种高性能且具有普适性的癌症分类方法,就可以大幅度简化癌症筛查的过程,降低检测成本和误诊风险,并且能够为医生提供诊断辅助,为癌症的早期诊断和治疗提供有力的支撑。癌症患者的病征不仅出现在内部器官或体表上,早期研究表明患者的DNA序列中往往会出现一定量的单核苷酸变异(SNV),在不同癌症类型患者的DNA序列中,SNV呈现出不同的分布模式。SNV的易区分性和与癌症的高度相关性使其在癌症分类分类方向上大有可为。本文提出了一种基于SNV多维度特征的癌症分类算法CCMDS(Cancer Classification Based on Multi-Dimensional SNV Features),并通过改进现有的SNV特征采集方法,提升了癌症分类的准确度。首先,CCMDS算法从公开数据库收集SNV数据,并对其进行筛选和预处理,以SNV及其相邻核苷酸的形式进行存储。其次,在不同的特征维度下采集突变位点的特征,并以特征矩阵的形式进行存储。然后,将样本数据划分为训练集和测试集,使用监督学习算法为测试样本打上标签,实现癌症分类。最后,通过对照已知的样本标签,对分类结果进行了性能分析与验证。本文提出的CCMDS算法很好的提升了数据利用率,通过从多个特征维度采集SNV特征提高了分类准确度,在真实数据集中测试时,实验结果在分类性能及分类范围上都有很好的表现。本文的创新点之一是提出将SNV分布模式直接应用于癌症分类问题,另一个创新点是提出了一种多维度SNV特征采集方法。多维度特征不仅可以应用于癌症分类,也可以广泛的应用在其他算法中。本文通过将原有的SNV特征采集方法作为对照组,基于KNN、SVM、随机森林等八种不同的算法进行了对照实验,结果表明使用多维度特征后,八种算法的性能都表现出不同程度的进步。另一方面,本文将多维度特征与两种不同的特征采集方法在同样的数据集下进行了比较,多维度特征表现出了明显的优势。在实验部分,本文分析了算法的参数对分类结果的影响,并使用不同的方式对结果进行了验证,证明了算法的有效性和可靠性。本文提出的CCMDS算法不仅具有较高的准确度,并且能够同时对多种癌症进行分类,有效的减少了癌症分类的成本与周期,对癌症的早期检测具有较大的研究意义。
其他文献
本文的研究内容主要包括两个部分:1)水稻OsWRKY97基因功能研究2)水稻OsDUF946.4基因的克隆及功能的初步探索。水稻是重要的农作物之一,然而随着环境的不断恶化,干旱,盐碱,极端温度等都是限制植物生长的重要因子,同时也是影响作物产量的主要因素,因此研究植物对非生物胁迫的响应过程显得尤为重要。目前,水稻基因组研究的重点已从结构基因组学转向功能分析。新基因的发现以及功能的验证则是功能基因组学
1.一份水稻细胞质遗传黄化突变体的鉴定叶片是水稻进行光合作用的主要器官,与水稻的产量密切相关。叶色突变体是一种性状很明显的突变体,对叶绿素生物合成途径、叶绿体分化发育、基因表达调控等方面的研究中具有重要的意义。本实验研究的材料是由粳稻品种ZH11在组培过程中产生的突变体1048-3,其主要表型为叶片黄化。通过不同正反交组合F1和F2植株叶色以及标记基因的调查,证明该突变体可以正常进行杂交分离,且是
作物抽穗开花时间与最终产量密切相关。杂交水稻优势形成的重要遗传基础之一就是对抽穗开花时间的调控,在兼顾产量和收获的情况下,杂种开花时间稍有延迟具有更高的产量水平。本课题组在Syn-SAU-24/绵阳1848(MY1848)//Y3///川麦42(CM42)合成小麦改良品系中发现,含纯合MY1848的Ppd-D1MY1848位点的品系表现为极端晚抽穗,含纯合CM42的Ppd-D1CM42品系为早抽穗
在旧城更新的浪潮中,社区作为城市的基本单元,是城市有机更新的基础。局限于建设水平和年代条件,老旧社区不再适应城市发展的要求,老旧社区公共空间已经不能满足当代人民多样的活动需要,因此改善老旧社区外环境,优化居民活动体验是城市更新发展的必要环节。本研究以成都市玉林社区公共空间为调研对象,以街巷空间、广场空间和游园空间为样本单元,通过问卷访谈法和行为注记法收集记录老旧社区居民的人口结构、行为模式和公共空
普通小麦(Triticum aestivum,2n=6x=42,AABBDD)是世界上最早广泛种植的粮食作物之一,野生一粒小麦(Triticum boeoticum,2n=2x=14,AbAb)是小麦遗传改良的重要基因源。野生一粒小麦向普通小麦基因转移的转移过程中,从A基因组染色体当中区分出Ab基因组染色体是非常重要的。但是,关于野生一粒小麦染色体的荧光原位杂交鉴定的研究较少。本研究首先以普通小麦
本文旨在研究我国不同基因型肉用牛:地方黄牛(宣汉黄牛:XH(Xuanhan yellow cattle))、西门塔尔杂交牛(我国推广面最广的品种西门塔尔牛和本地黄牛的杂交改良牛:Simmental crossbred cattle:SC(Simmental×Xuanhan yellow cattle))和犏牛(生活在青藏高原地区的牦牛-犏牛:cattle-yaks:CY(Jersey×Maiwa
全豆豆腐作为新型的全豆豆制品,其加工制备可避免水溶性蛋白质丢失,并保留大豆中各类生物活性物质,如异黄酮、膳食纤维、皂甙和低聚糖等营养物质。针对全豆豆腐加工原料的适应性问题,本研究主要探究不同大豆原料的全豆豆腐的加工特性及不同品种大豆制备的全豆豆腐的氨基酸营养价值。1采用差异性和相关性分析,19种大豆原料理化成分含量如粗蛋白、脂肪、钙、磷、植酸和可溶性蛋白及7S/11S比例表现出较大差异;所制备的全
本研究旨在考察高温环境对断奶仔猪生长性能、肠道健康和抗氧化状态的影响并筛选热敏感指标对断奶仔猪的上限温度临界值进行探究,为生产上对断奶仔猪的夏季管理提供参考。本研究包括以下两个试验:试验一 高温环境对断奶仔猪生长性能、肠道健康和抗氧化状态的影响本试验旨在考察高温环境对断奶仔猪生长性能、肠道健康和抗氧化状态的影响。试验选用16头平均体重为(8.61±0.24 kg)的28日龄“杜×长×大”(DLY)
种质资源是新品种选育的基础,也是现代农业科技创新的源头。薏苡是一种粮、药、兼饲用的优良禾本科作物,在我国分布范围广,种质类型多,表型差异大。然而,薏苡遗传多样性的系统研究却相对较少。本试验利用主要农艺性状和InDel分子标记对174份薏苡种质材料的遗传多样性进行了研究,主要结果如下:(1)对薏苡株高、开花期和总苞颜色等20个主要农艺性状的统计分析结果显示,群体材料间具有较高的遗传多样性。各性状的变
断奶仔猪由于自身免疫系统尚未发育成熟,且受到多种应激的影响,易遭受各种病原菌感染,导致肠道屏障损伤,降低生产性能。在“限抗禁抗”的背景下,如何通过非抗生素手段确保断奶仔猪肠道健康是当前畜牧业面临的重大问题。功能性低聚糖是一种潜在的抗生素替代品,具有增强动物免疫力、调节肠道菌群和维持肠道健康的功能。低聚壳聚糖(Low-molecular-weight-chitosan,LMWC)是壳聚糖经脱乙酰得到