基于癌症整合数据网络模式的挖掘研究

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户:youtubo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
癌症测序数据的不断产生为癌症的研究提供了很好的数据支撑。在诸多数据挖掘方法中,网络模式挖掘方法作为一种有效的数据挖掘手段,可以从宏观上构建出生物分子之间的关系,从而使可挖掘的信息更丰富。在诸多癌症测序数据中,基因表达数据反映的是基因转录产物mRNA在细胞中的丰度。基因表达数据可以用来分析基因在细胞中的表达是否发生改变、不同基因之间的相关性以及在不同条件下基因的活动如何受影响等问题。利用基因表达数据构建共表达网络是分子生物网络研究中常见的方法。而癌症多组学数据的出现使单一的数据或癌症网络分析模型无法满足这些数据的处理需求。因此,基于整合数据的多癌症网络联合分析以及基于多种类型数据的整合模型的网络分析成为新的研究热点和趋势。本论文利用癌症基因图谱(The Cancer Genome Atlas,TCGA)中的多癌症整合数据,基于基因共表达网络方法对多癌症异常表达基因和通路进行挖掘,主要分为以下三个部分:(1)针对数据中噪声的干扰问题,提出低秩去噪的网络分析方法。在多癌症整合数据构网之前,该方法引入低秩稀疏的方法对数据矩阵进行去噪重构梳理,在不破坏数据完整性的基础上,得到更加可靠且具有内部联系的低秩癌症数据;基于这些数据中基因向量间的皮尔森系数进行网络构建,进而在网络中提取癌症信息。(2)针对基因节点之间相互关系的建立问题,结合节点多种关系测度和节点局部和全局特性,提出节点多关系测度的网络分析方法(PMN)。该方法结合了基因之间线性(皮尔森系数)和非线性(互信息)关系,借鉴了节点的连通度和介数性质,从而发挥节点局部和全局的特性;利用TCGA中三种癌症的基因表达整合数据进行网络构建,丰富了网络基因节点之间的关联关系,更有利于挖掘基因网络中蕴含的信息。(3)针对TCGA多整合数据的融合问题,提出基于整合图正则非负矩阵分解的网络分析方法(iGMFNA)。对于同一种癌症的不同类型数据(基因表达、甲基化、拷贝数变异),该方法采用矩阵分解方式进行重建融合,充分发挥每一类数据的作用,使得整合的网络涵盖每类数据的特异性信息,从而对特定的癌症进行更系统的分析和异常表达模块的挖掘。各项实验表明,本论文中提出的方法比同类方法更具优势且可以找到更多可疑的癌症相关基因和模块。
其他文献
迄今为止,在水下工程中混凝土仍然是最主要和用量最大的建筑材料之一。与普通水下混凝土相比,水下不分散混凝土克服了普通混凝土抗水洗差,易污染环境,专用设备要求高等不足,能够在水中直接浇筑,不易发生分散与离析,被国内外学者称为“全新的、理想的、划时代的混凝土”。目前,国内外现有水下不分散混凝土强度多集中于C30以下,随着未来深海探索及南海岛礁的建设,对高强度且工作性良好的水下不分散混凝土的工程需求愈来愈
烟粉虱Bemisia tabaci是半翅目粉虱科的世界性农业害虫,通过刺吸植物汁液以及传播病毒严重危害我国农作物。目前对烟粉虱的防治主要依赖于化学防治,噻虫嗪作为一种第二代新烟碱类杀虫剂产品,具有独特结构和高效的杀虫活性,目前是防治烟粉虱的重要药剂。随着药剂的长期大量使用,有关害虫对于新烟碱类药剂抗药性的报道日渐增加。关于其抗性机制的研究表明,其抗性产生的机制主要集中在靶标抗性与解毒酶抗性,其中解
微波微等离子体是指使用微波放电激励产生的微等离子体,放电尺寸为毫米或微米量级。与传统等离子体源相比较,微波微等离子体源体积小、成本低、易集成。另外,它还保留了微波
伴随着合成孔径雷达(SAR)发展,SAR系统得到了大力发展,于此同时SAR成像技术和SAR图像解译技术也已发展成熟。但是研究SAR系统资源与解译技术关联性的却少之又少,同时SAR系统资源会影响SAR图像可解译得信息量,进而会影响解译性能。目标检测是SAR图像解译过程中重要的一部分,并且其性能的优劣会影响后续的目标识别性能。本文在此研究背景下,对SAR系统资源与目标检测性能关联性进行研究,研究结果可
一阶非负整数值自回归时间序列模型(First-order nonnegative integer-valued autoregressive,记为INAR(1))已经被广泛地应用在建模计数数据方面,泊松分布也是建模计数数据时
经过近二十年的发展,农村商业银行在数量和规模上有了长足的进步。农村商业银行的发展弥补了原有金融体系的不足,对于完善我国金融体系、支持小微企业发展、支持乡村振兴有着重要的意义。农村商业银行有其特殊的责任和使命,是推动普惠金融的重要平台。农村商业银行多项经营指标与商业银行平均水平相比仍有不小的差距,其内部也开始出现两极分化。农村商业银行发展不好会影响金融体系的完整性,不利于我国经济的发展。农村商业银行
学位
以疟疾传染病传播为主要背景,本文主要研究了三类疟疾模型:具有非局部时滞的反应扩散疟疾模型,具有媒介选择性和周期性的疟疾模型和具有非局部时滞,媒介选择性和周期性的反应
人脸识别因其采集成本低、安全性高以及丰富的应用场景,一直是计算机模式识别领域的研究热点。伴随着人脸识别技术理论的不断成熟,人脸识别作为一种新型的身份验证技术被广泛应用于各种实际场景。但是面对海量的人脸图像数据,如何训练出有效的特征信息,是人脸识别技术的关键。非负矩阵分解(NMF)作为一种特征提取算法,近几年被广泛应用于人脸识别研究。如何加快矩阵分解的收敛速度和使分解结果更具有稀疏性,是改进NMF算
目前,能源短缺已成为世界难题,其引发的问题接踵而至,如何减少执行器的使用或使其不使用能源被越来越多的科研工作者所关注,由此自驱动执行器应运而生。自驱动执行器是执行器
近年来,经济全球化使得跨语言交流日益频繁,对翻译的需求也与日俱增。随着科技的进步,机器翻译的出现使人们的翻译工作发生了巨大的变化,也日益改变着人们的翻译习惯和翻译行为。作为一名翻译新手,笔者发现各种各样的翻译系统的确提高了翻译效率,可提供粗略的译文,甚至在一些文本的翻译上表现十分优秀。但是机器翻译也出现了很多明显的问题和局限,机器翻译的翻译质量远远不能满足实际的需要。针对机器翻译的弊端,译后编辑是