基于双向聚类和扩增依赖性过表达识别乳腺癌亚型驱动基因

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:comeon833833
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代社会,人类癌症发病率不断增加。乳腺癌作为一种高发癌症,表现出明显的异质性,不同亚型之间的治疗方案及预后效果差别巨大。同时研究表明,癌症发生的过程中往往伴随着大量的基因发生突变,这些基因被称为致病基因,在这些致病基因中起主导作用的部分基因被称为“驱动基因”或“司机基因”(driver gene),其余功能中性的基因被称为“乘客基因”(passage gene)。驱动基因被认为是“可药物”靶点,使用分子靶向疗法能够对癌症的治疗事半功倍。目前的研究大多是在泛癌或特定的一种癌症数据中识别驱动基因,在癌症亚型水平上的驱动基因研究相对较少。对于乳腺癌这类亚型分界明显、治疗方案和预后效果差别较大的癌症,急需一种能够识别属于不同亚型的独特驱动基因的方法,将驱动基因的识别粒度提升到亚型水平,即识别乳腺癌亚型驱动基因。通过研究特有的亚型驱动基因,能够给出合理的靶向治疗方案,对乳腺癌的亚型判断和精确治疗提供指导。在此背景下,本文提出基于双向聚类和扩增依赖性过表达的乳腺癌亚型驱动基因识别方法。通过双向聚类算法,可以获得与乳腺癌各个亚型有关的基因,在此基础上对各个亚型相关基因进行扩增依赖性过表达分析,筛选出乳腺癌亚型驱动基因,最后使用多种分类算法验证亚型驱动基因的亚型相关性,并与现有黄金标准中的驱动基因作对比,以验证方法的有效性。本文取得的创新性成果如下:(1)提出了基于改进双向聚类和扩增依赖性过表达的亚型驱动基因识别方法,该方法融合了的迭代签名双向聚类算法和扩增依赖性过表达方法。将迭代签名双向聚类算法用于亚型分类并获取亚型相关基因,使用该聚类方法得到的亚型与样本、亚型与基因之间满足一对多的关系,更符合生物学特性。接着在保证亚型分类准确性的基础上,使用扩增依赖性过表达分析从亚型相关基因中筛选出亚型特有的驱动基因,提高识别的精确度。(2)针对原始迭代签名双向聚类算法初始种子随机、迭代收敛速度较慢甚至难以收敛的问题,本研究根据训练样本的亚型分类标签生成了有先验知识的种子,从行(样本)和列(基因)两个方向同时对癌症基因表达数据矩阵进行聚类,获得亚型分类和与亚型相关的基因,解决了算法难以收敛的问题,加快了收敛速度。(3)将本研究中提出的方法用于真实的乳腺癌数据,获得了乳腺癌不同亚型的驱动基因。首先,将亚型驱动基因作为特征,使用多种分类算法进行分类,验证了驱动基因的亚型相关性。接着,将本研究得到的驱动基因与现有驱动基因黄金标准对比,结果论证了本文所提出方法在识别亚型驱动基因上的准确性。此外,本研究还得到部分现有黄金标准中没有的潜在亚型驱动基因,可以作为后续研究的重点,能够丰富现有驱动基因库。最后,利用基因本体论GO和京都大学基因组数据库KEGG,对本研究识别出的亚型驱动基因进行了生物意义解释,进一步验证了本研究方法的有效性。综上,本研究提出了一种新的乳腺癌亚型驱动基因识别方法,将驱动基因的识别粒度提升到亚型水平。该方法能够区分乳腺癌亚型并鉴别亚型驱动基因,为乳腺癌亚型提供了关键的靶向治疗位点,对乳腺癌诊断和精准治疗方面的研究提供了借鉴。本研究提出的方法可以推广到其他异质性癌症的亚型驱动基因识别中。
其他文献
背景:甲状腺髓样癌(medullary thyroid carcinoma,MTC)是一类很罕见的神经内分泌肿瘤,该病的病理生理学基础为甲状腺滤泡旁细胞(C细胞)的异常分化以及恶性增殖,由原癌基因RET发生突变导致,此外,近年microRNA与甲状腺髓样癌的发生的相关性也被证明。该病的临床表现缺乏典型性,常常以腹泻、潮红等类癌综合征为主。以发病特点的不同当作分类依据,MTC又包括散发性MTC(sp
为满足用电用户日益增长的用电需求,泛在电力物联网和智能电网开始融合发展,配电网作为连接用户的最后环节,对用户的供电质量和用电可靠性产生直接影响,而智能配电终端(Smart
粒子滤波是在蒙特卡罗方法和贝叶斯理论的基础上发展起来的一种滤波方法。它的基本思想是把要求解的状态空间上的概率分布用粒子集合来近似。这里状态空间中的粒子其实就是统
悬架系统作为车辆减振的重要部件,对车辆的乘坐舒适性和操纵稳定性起着至关重要的作用,其中主动悬架系统由于能够实时的产生与路面激励和车身姿态相适应的控制力,使车辆处于
随着计算机技术和电子技术的不断发展,图像分割技术也变得越来越重要,医学成像设备已经成为现代医疗诊断疾病不可缺少的工具。医学图像分割不仅为医学人员诊断提供便利,而且
如今数据中心的管理是云计算行业研究的热点。如何提高数据中心的资源利用率,保证数据中心的负载均衡成为了研究的重中之重。目前,对于云数据中心资源利用率的优化主要是通过
我们要清醒认识和把握"百年未有之大变局"的可变性与复杂性。最近一百年来,人类历史是一个剧烈动荡与高速发展引致的经济全球化进程,是一个由资本扩张支配的全球体系,是一个
研究背景:肝细胞肝癌(HCC)是一种多基因突变、高度异质性的恶性肿瘤。ZNF384基因编码一种可结合并调节细胞外基质基因MMP1、MMP3、MMP7及COL1A1启动子的转录因子。大量研究表明ZNF384通过基因重排参与了急性B淋巴细胞白血病的发生发展。ZNF384在肝癌中改变频率大约9%,但有关ZNF384在HCC中的功能研究没有相关报道。实验方法:通过免疫组化染色法(IHC)检测ZNF384在
网络舆情作为重要的信息集散地,是人们参与和了解社会性话题的重要途径。而舆情信息的大数据特性在一定程度上却增加了信息理解和监控的难度。如何从大量非结构化数据中提取
机器人工作单元布局是设计领域的一个重要组成部分,对于提高机器人工作单元的工作效率、减少机器人耗能具有重要的意义。本文研究对象为一种用于硅片传输的三自由度支链嵌套