基于共表达的癌症分化度研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:first111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
癌症是一种身体的某些细胞不受控制地生长并扩散到身体其他部位的疾病,是在世界范围内公认的致死率很高的疾病之一,也是人类的主要死亡原因。癌症具有发病率高、死亡率高、预后效果不好等特征。随着高通量测序技术的发展和现代生物信息学工具的快速进步,使得我们可以轻松的获得大量的癌症的基因组学数据,为癌症的诊断和治疗提供了新的研究方向。与此同时,很多研究机构建立了公共数据库以便能够获得大量高质量的生物组学数据,为研究人员收集此类数据并进行相关研究提供了便利。癌症分化度是根据癌症组织的某些特征对癌症进行分类的一种方法。具体来说,癌症分化度是癌细胞与正常细胞对比异常程度的描述。同时,它也是癌症精准诊断、治疗和机制研究的重要课题。与分期相比,分化度可以更好的反映癌症细胞或组织生长的速度和异质性程度。然而现在对癌症样本分化度的判定是基于病理学家通过显微镜观察进行判定的,这种方法会受不同人主观的影响,所以需要一种利用组学数据对癌症分化度进行预测的算法。癌症组织的发展方向从高分化到低分化的,然而驱动癌症从高分化进展到低分化的机制尚不清楚。对癌症的分化机制的研究可以使我们对癌症的发展有新的认识。本文以癌症的分化度为研究对象开展研究,主要研究癌症分化度的分类问题,目前现有的大多数计算方法都是通过对特定类别(阶段、分级和亚型)的癌症样本与对照组的差异基因表达进行分类来解决这个问题。然而,这种分类技术的性能通常并不令人满意,原因是差异表达模式的识别能力是有限的。本文的主要工作如下:1.提出一种基于给定样本和特定类别样本集的共表达模式的一致性水平来预测癌症组织分化度的方法。该预测方法的基础是,同一类别或分化度的癌症样本具有相同的共表达模式,在癌症中共表达模式往往比差异表达模式更保守。基于该想法把基因表达形式的样本转换成共表达网络形式的样本,随后为每个癌症类型训练一个深度神经网络模型,使用smote算法解决样本不平衡问题,使用支持向量机递归特征消除(SVM-RFE)算法进行特征选择,加入dropout层解决过拟合问题,随后对样本分化度进行预测。为了验证模型效果本文使用多个指标评估模型效果,测试结果显示,模型可以很好的预测不同癌症样本的分化度组,预测准确率平均达到85%以上。2.本文使用一种新的基于共表达网络的富集分析方法,通过这种功能分析方法发现了随着癌细胞从高分化状态到低分化发展哪些功能被增强,哪些功能被抑制。并且我们对富集分析的通路列表进行总结,得到了不同分化度共有的功能特征和每个分化度独有的功能特征。癌症发展是癌症组织某些功能退化和某些功能增强的过程,了解哪些通路在癌症发展中起重要作用,有助于探索癌症治疗的研究方向。3.很多研究表明,癌症和慢性疾病的发展都有可能涉及多种类型的压力源,所以本文使用一种基于基因集变异分析(GSVA)和单因素方差分析的方法,分析癌症组织中氧化压力和缺氧压力与分化度之间的关系。
其他文献
符号网络是大数据时代的一种数据表现形式,由节点、节点间正负链接组成。符号网络中的任务在现实生活中有非常广泛的应用,如链接预测、社区发现、节点分类等。但符号网络的节点和链接需要高维向量表示,导致模型计算复杂的问题。表示学习是一种非常有效的学习节点嵌入方法,通过保留网络中拓扑结构、顶点内容和其它辅助信息,将网络顶点嵌入到低维向量空间中。所以用表示学习方法可以将符号网络任务中所需的信息提取出来,用低维向
学位
精准识别癌症患者的分子亚型对癌症的个体化治疗、靶向药物研发和预后分析具有重要意义。大规模多组学数据和基于数据驱动的方法能够促进对癌症分子分型的理解和预测。现有大多数基于机器学习的方法通常依赖于单一组学数据,而未能整合多组学数据为分子分型提供更全面的信息。一些基于神经网络的方法,考虑了分子分型的复杂非线性,但忽略了基因特征筛选和样本之间的关系。图神经网络能够利用样本相似性图中样本之间的信息传递和聚合
学位
关系抽取指从非结构化文本中抽取出实体间的关系,是自然语言处理中重要的研究方向。在深度学习时代,监督学习下的关系抽取模型已经取得很高的准确度,但其要求大量带标注的训练语料,然而在现实世界中关系种类繁多,文本数据复杂,提供大量的带标签的训练数据需要耗费巨大的人力。针对以上问题,远程监督的思想被提出,它基于一个假设,如果知识库中存在两个实体表达了某种特定关系,那么语料中所有含有这两个实体的句子都表达了这
学位
牡丹皮,又称丹皮,是毛茛科植物牡丹Paeonia suffruticosa Andr.的干燥根皮,广泛应用于中药名方。现代药理学研究表明,牡丹皮具有调节血糖、缓解糖尿病并发症、抗炎等多种药理作用。多糖作为一种水溶性大分子,其在传统中药水煎液中占据很大的比例。研究报道,多糖具有多种生物活性,如免疫调节作用、调节肠道菌群、抗炎、抗肿瘤、抗氧化应激等。多糖也是牡丹皮的主要活性成分之一,目前对于牡丹皮多糖
学位
近些年多智能体强化学习的相关研究备受关注,其中值分解问题的相关研究引起了研究者的广泛重视。在多智能体值分解方法中,为提高多智能体策略的性能,环境整体的行为值函数可以表示为每个智能体值函数的组合。然而,目前的值分解方法中主要存在两方面问题:(1)值分解相关算法模型存在学习效率较低的问题,而算法的学习效率是重要性能指标,提高模型学习效率具有重要的研究价值;(2)值分解相关模型存在探索能力不足的问题,而
学位
数字切片扫描技术和高性能运算硬件的不断完善促进了深度学习方法在组织病理学领域的广泛应用。现有工作主要基于多示例学习框架,使用卷积神经网络实现对病理切片的分析。然而,这些模型在分析病理切片方面的性能不佳,主要原因包括:1)卷积神经网络的模型参数过大;2)多示例学习中使用全切片图像级别的标注带来的噪声干扰。为了构建高效轻量化模型对病理图像进行分类的同时减弱噪声标签的干扰,本文提出了一种融合多尺度信息的
学位
高良姜是一种香气独特的药食同源植物,富含黄酮和活性多糖,其提取物具有强黄嘌呤氧化酶抑制(XOI)活性,在功能性食品领域运用的思路有待拓宽。鲣鱼是活性肽制备的优质原料,其酶解物已被报道具有降尿酸、降血压和抗氧化等活性。然而鲣鱼肽经深度酶解通常具有腥苦味明显的风味缺陷。本研究综合考虑高良姜和鲣鱼肽的物化性质,旨在探明利用高良姜改善鲣鱼肽品质的最适途径,优化得到高良姜风味富肽食品基料制备的最佳工艺,揭示
学位
近年来,随着电信网络的不断发展,尤其是5G网络的普及,进行有效的网络故障管理的难度越来越高。为了应对网络故障管理中出现的困难,故障场景识别任务应运而生。其目标是基于告警数据对网络中存在的故障场景类型进行识别。有效的故障场景识别能够推动有效的故障恢复。目前,故障场景识别的相关研究主要集中在工业界。其中,基于规则的识别方法是最常见的。然而,这种方法并不能对故障场景进行准确、有效的识别,其对网络故障管理
学位
酸奶是一种在世界范围内广受欢迎的乳制品,已被证明具有改善肠道健康、提高免疫力、抗氧化、缓解炎症反应等功能。酸奶发酵产生的胞外多糖对酸奶的质地、感官等品质有重要影响。笔者课题组前期从内蒙古家庭自制酸奶中分离鉴定出德氏乳杆菌保加利亚亚种Lactobacillus delbrueckii subsp.Bulgaricus DMLD-H1(简称H1)和嗜热链球菌Streptococcus thermoph
学位
中阶梯光栅光谱仪是一种采用交叉色散技术以获得高级次光谱并实现全波段闪耀的光谱仪。因其具有覆盖波段范围宽、光谱分辨率高、无可移动部件等特点被广泛应用于医疗、工农业以及食品安全等领域。目前中阶梯光栅光谱仪的检测器主要采用电荷耦合器件,这类检测器在紫外波段的量子效率较低,可通过将检测器改进为背照式或者镀荧光膜将短波转化为长波检测,进而改善紫外波段的灵敏度,但会提高仪器成本。此外,可以通过延长积分时间提高
学位