基于多组学数据的肿瘤亚型的智能识别

来源 :江南大学 | 被引量 : 0次 | 上传用户:long1024
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在精准医疗时代,从多组学水平对癌症进行亚型分型成了研究的热点。基于多组学数据进行癌症亚型研究可以利用不同组学上的信息融合,在分子层面更准确的识别癌症亚型。本文将机器学习的方法应用在多个癌症数据集的多组学数据上,通过提出不同的算法对癌症亚型进行研究,发掘不同癌症亚型中的生物标志物,为推动精准个性化医疗作出贡献,主要从以下三个方面开展研究工作:1.CSNF聚类算法及肿瘤亚型研究。基于CCA算法和SNF算法,提出了CSNF聚类算法并进行了肿瘤亚型研究。首先,为了减少组学间相关性对聚类造成的影响,通过CCA获取组学之间的相关系数;进而加入到SNF中弱化组学间关联从而改进聚类;最后在4个癌症数据集上与SNF、FCM、CC聚类算法比较均有明显提升。对差异基因进行分析发现,在肾透明细胞癌(KIRC)中差异最显著的miRNA前top10中有5个(has-mir-22、has-mir-30a、has-mir-30e、hasmir-143、has-mir-148a)都与lnc RNA前top10中的OIP5-AS1相互作用,OIP5-AS1已被证实是肿瘤的发展过程中的重要分子。通路分析表明,与OIP5-AS1相互作用的miRNA都拥有介导翻译抑制的功能。同时生存分析发现OIP5-AS1并不会直接影响癌症的预后,表明OIP5-AS1可能与相互作用的miRNA协同抑制癌症的增殖。实验结果证明了提出的CSNF算法的有效性,发现了与肿瘤亚型相关的重要分子。2.RSC-MCR差异算法及肿瘤亚型研究。首先根据RSC计算所有特征的成对相关性,并将其分解得到不同组学特征的成对相关性,根据不同组学特征的成对相关性建立不同组学间的联系。为了去除冗余相关性,提出一个差异算法计算原始特征矩阵与包含不同组学间冗余相关信息的矩阵之间的差异程度。将该方法与其他去除相关性的方法及没有去除相关性进行比较,在5个癌症数据集上使用3种聚类方法进行聚类,采用3个评估标准进行评估,实验结果证明提出的RSCMCR差异算法正确去除了冗余相关性,显著提升了聚类性能,这种改进策略具有普适性。3.基于贪心和剪枝思想的G-P算法及肿瘤亚型识别。首先根据Pearson相关性找到和m6A调节因子相关的转录组,然后使用单变量cox回归分析得到生存相关的转录组特征。之后,开发了一个基于贪心和剪枝思想的G-P算法用于发现关键特征。G-P算法基于贪心算法搜索最优特征,利用剪枝算法扩大搜索范围,找到一组关键特征CASC11、KRT14、PDZD4,能很好的将PDAC患者区分成预后相关的两类,并在ICGC数据集上得到验证。对关键特征进行分析,发现关键特征在不同亚型中差异表达,且与生存密切相关。与关键特征最相关的调节因子EIF3B也被报道是促进PDAC的重要标志物。本研究揭示了m6A相关转录组对于PDAC分型的关键作用,并探讨了所发现的标志物的预后价值。本文紧紧围绕基于多组学数据的癌症亚型识别问题,通过提出一系列改进算法用于识别亚型,并发现了关键的分子,为癌症的精准治疗提供了理论支撑,为个性化医疗的发展提供了思路。
其他文献
互联网的飞速发展以及信息采集、分享方式不断丰富促使人们步入大数据时代,数据的急剧增加带来严重的“信息过载”问题,推荐系统便是针对这一问题所提出的,推荐系统分析用户的行为记录,挖掘用户的个性化需求,帮助用户找到他们感兴趣但很难被发现的产品。如今网络内容日益丰富,物品数目动辄百千万计,用户交互数据非常稀疏,导致大多关联分析算法效果一般;由于新用户、新物品可供分析利用的信息较少,很难给出精准的推荐,从而
学位
文本情感分析是自然语言理解的热门研究方向,是对含有情感信息的文本数据进行分析、处理和总结。传统的文本情感分析方法需要人工构造特征,耗费大量的人力和时间,比如传统情感词典分析方法。而机器学习算法对文本进行情感分析时,出现发掘信息不完整,获取文本数据特征稀疏的情况,例如循环神经网络。近些年,深度学习技术在自然语言理解领域取得了显著成绩,一定程度上能有效克服传统方法和机器学习的缺点,因此本文基于深度学习
学位
在弱光环境下拍摄的照片中,由于光照条件不充足,通常会导致生成的图像产生大量的噪声、颜色退化、低对比度和曝光不足等严重的问题,这不仅使得图像的可视效果难以接受,同时也丢失了许多细节信息。这种情况也对其他计算机视觉任务产生了严重影响,如目标检测、人脸识别、水下图像成像以及视频监控等。针对这些问题本文主要从缺失信息的恢复和光照场景的自适应两个角度进行了下列研究:1)由于低照度图像中通常含有严重的噪声,导
学位
在欣赏书画艺术作品时,观赏者可以从作品的静态笔触中感受到暗示性的运动,并且大脑中会对其感受到的运动进行无意识的运动模拟。这一心理现象在各种艺术文献中有着广泛的记载,并被归类为“具身美学”的重要感知模式之一。在实验美学中对这类审美现象有相关研究,但这些研究仍停留在审美偏好和脑神经活动方面,过去的研究和实践既没有尝试从大脑中获取想象的笔触运动的“数据”,也没有尝试在此基础上以新的形式重新创作艺术品。目
学位
文本情感分析研究人们在文本中表达的情感、观点、态度。细粒度情感分析是其中的一个细分领域,相比于研究文本整体情感的粗粒度情感分析,细粒度情感分析直接对文本中的实体进行情感分析,具备更多的实用价值。细粒度情感分析的目标是提取出文本中实体,并对根据句中观点对每个实体的情感倾向进行分类。按提取的项目不同,其可以分为方面项抽取、观点项抽取及方面情感分类三个子任务。本文主要研究方面情感分类和结合三个子任务的方
学位
近年来,癌症患者越来越多,并且癌症的死亡率也在不断增加。对于大多数癌症患者来说,传统的物理和化学治疗方法不仅昂贵而且效率不高。此外,一些抗癌药物在杀死癌细胞的同时也会损害正常细胞,患者长时间服用这些药物会使癌细胞产生耐药性。因此,迫切的需要开发新的更加有效的药物。而多肽作为一种高特异性、选择性和对人体伤害小的安全可靠的治疗候选药物,近年来备受研究者的青睐。随着多肽药物数据的增加以及机器学习算法的快
学位
由于小目标具有尺寸小、分辨率低的特点,一直以来是目标检测任务的难题。小目标的识别不能单纯使用一个尺度的特征图预测,需要针对小目标的特点设计合适的检测模型,利用全局语义信息和多尺度特征图进行识别。本文从特征增强的角度出发,提出了新颖的特征融合模块、注意力模块、特征金字塔模块,并将这些模块应用到经典的检测模型中,以提升小目标检测的精度。如下为本文针对提升小目标检测精度做的三个主要工作:1)第一个工作是
学位
曲线拟合与重构是计算机辅助几何设计领域中一个重要的基础研究课题,其相关技术有着广泛的应用。B样条具有优秀的形状表达能力、良好的局部控制能力和连续性,是在曲线拟合中最常见的方法。由于曲线拟合问题中基函数的选取有着重要的影响,因此根据具体问题和约束的不同,学者们也会提出不同于B样条的基函数应用其中。而正交函数系作为一类有着诸多优势的函数却很少被用于曲线拟合,其中一个重要的原因是传统的连续正交函数系基函
学位
近年来,人工智能在医学领域大放异彩,特别是在图像分割领域,取得了很大的进展,现代医学中,医生往往根据不同的医学图像诊断病情,并作出相应的治疗计划。医学图像多种多样,每种图像都有其各自的特点以及擅长的地方。如计算机断层扫描(CT)、超声成像、磁共振成像(MRI)等。借助机器学习算法,我们使用计算机程序处理不同模态的医学图像,帮助医生提高诊断效率。在癌症的治疗中,放疗是最重要的手段之一,对绝大多数癌症
学位
纺织品瑕疵检测是纺织品质量监控的关键环节。视觉显著性可以模拟人类的视觉机制,快速定位具有显著性特征的目标,因此基于视觉显著性的纺织品瑕疵检测很有研究价值。本文研究对象为图案具有复杂周期性变化的纺织品,根据纺织品图像具有周期性的特点,利用图像的自相关性取得最佳分块模板,解决传统算法提取图像周期波动较大的问题。针对原上下文视觉显著性算法仅考虑局部显著差异性的不足,同时计算相邻像素块的全局和局部显著差异
学位