非小细胞肺癌发生分子机制的生物信息学研究

来源 :上海大学 | 被引量 : 2次 | 上传用户:mars22
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
肺癌是一种常见的肺部恶性肿瘤。近年来,随着各种环境因素的影响,世界各国特别是工业发达国家,肺癌的发病率和病死率均迅速上升,位居恶性肿瘤发病率和死亡率首位,严重威胁了人们身体健康。然而,到目前为止,肺癌的发生分子机制依然不清楚,难以有效的进行早期诊断和治疗。鉴于此,本论文利用生物信息学方法,分别从基因差异表达数据挖掘、蛋白质相互作用预测及其网络的构建等方面探讨了非小细胞肺癌的分子作用机制。同时对部分生物信息学分析结果进行了分子生物学验证。考虑到非小细胞肺癌是肺癌的主要类型,因此本论文所用数据来源于GEO数据库中肺鳞癌、肺腺癌数据集,具体工作内容如下:第一,综合BRB-Array Tools和MATLAB程序,分别对肺鳞癌数据集(GDS1312)和肺腺癌数据集(GDS1650)进行数据挖掘。试图阐述两个方面问题:一是基因表达模式是如何在非小细胞肺癌中发生变化的;二是差异表达基因参与的代谢途径有哪些以及代谢途径在非小细胞肺癌发生过程中的可能作用。GDS1312中包括5例肺鳞癌组织及对应正常癌旁组织的全基因组表达数据。数据挖掘结果显示,肺鳞癌中共筛选出409条表达上调的基因和877条表达下调基因;经GO分类对比共有1730条基因与95个GO分类匹配,主要涉及细胞骨架、细胞增殖调控、程序性细胞死亡、免疫应答及蛋白酶等;KEGG通路主要涉及物质代谢、细胞周期及疾病相关等通路;BioCarta通路主要涉及细胞黏附、细胞周期调控、细胞免疫、细胞信号及物质代谢等通路。GDS1650中包括10例肺腺癌组织及对应正常癌旁组织的全基因组表达数据。数据挖掘结果显示,肺腺癌中共筛选632条表达上调基因和975条表达下调基因;经GO分类对比共有1358条基因与63个GO分类匹配,主要涉及细胞骨架发生、细胞黏附、细胞识别、血管发育、蛋白激酶束缚等;KEGG通路分别涉及细胞黏附分子通路、白细胞跨内皮迁移通路、VEGF信号通路、mTOR信号通路与细胞周期通路;BioCarta通路与肺鳞癌类似,分别涉及细胞黏附、细胞周期调控、细胞免疫、细胞信号及物质代谢等通路。第二,基于支持向量机(SVM)的蛋白质相互作用(PPI)预测。以任意连续的两个氨基酸所构成的特征作为一个描述符(二氨基酸特征单元),计算每一个特征单元在蛋白质序列中出现的频率。以此构建一个二元向量空间(V, F)来描述每一个蛋白质序列,将蛋白质序列的PPI信息映射进入特征向量空间。利用支持向量机(SVM)的学习方法,采用径向基函数作为核函数,构建了蛋白质相互作用预测模型。并用10次的10倍交叉验证以检测预测模型的可靠性。这种方法能够产生一个精确度超过83%的稳定PPI预测模型。第三,以肺鳞癌、肺腺癌的差异表达基因为依据,构建与肺癌相关的蛋白质数据,通过二次筛选获得与肺鳞癌、肺腺癌发生高度相关的蛋白质分别为95个和178个,其中有19个蛋白在肺鳞癌、肺腺癌中共表达。将这些蛋白质分别与HPRD数据库进行检索,获得目前已有的全部PPI数据,并整合SVM预测的蛋白质相互作用信息。删除自作用数据和冗余数据后,利用Cytoscape程序构建肺癌相关蛋白质相互作用网络。计算网络的中心节点(核心蛋白),其中肺鳞癌相关PPI网络有19个核心蛋白,肺腺癌相关PPI网络有35个核心蛋白。探讨核心蛋白在肺癌发生分子机制中的可能作用,并提出肺癌发生的“分子群”假设。第四,为验证上述生物信息学分析结果,从在肺鳞癌、肺腺癌共表达的基因中筛选6个基因,采用半定量RT-PCR方法检测这些基因在肺鳞癌、肺腺癌细胞株中的表达情况。结果表明,5个基因在两种肺癌细胞株中均有表达,显示这些基因在肺癌细胞株中的表达具有一定的“相关性”,其中SOX4基因呈现高表达,提示该基因可能与肺癌发生有一定关系。为此,采用PCR-SSCP及DNA测序技术,对90例肺癌组织标本进行SOX4基因突变检测,发现部分肺癌组织中有SOX4突变的发生。综合MATLAB与SwissPdbViewer程序,对突变SOX4蛋白三级结构进行预测。结果显示,突变导致SOX4蛋白的侧链结构发生改变,影响了该蛋白与其它分子的相互作用功能。由于SOX4蛋白是一类与发育相关的转录调控因子,暗示SOX4突变可能是导致肺癌发生的一个潜在因素。综上所述,肺癌发生并非是由单个或几个基因或蛋白质能够决定其发生机制的,它可能是由众多与肿瘤发生相关的“分子群”形成的复杂调控系统。本论文的主要创新点:1.综合MATLAB程序与BRB-Array Tools软件,对非小细胞肺癌差异表达基因数据进行挖掘,为基因芯片数据挖掘提供了新的研究方法,并从基因表达水平探讨了肺癌发生的可能分子机制。2.以任意连续的两个氨基酸特征作为一个描述符,设计一种基于支持向量机(SVM)的蛋白质相互作用(PPI)预测方法。该方法能最大限度地保证蛋白质对中氨基酸信息的完整性,并以MATLAB作为实验平台,极大地减小算法实现的难度。3.利用基因表达数据挖掘结果,获得与肺癌发生高度相关的蛋白质数据,并结合数据库中的PPI信息,构建了肺癌发生相关蛋白质相互作用网络。以PPI网络中的核心蛋白为主体,提出肿瘤发生的“分子群”假设,为肺癌发生分子机制研究提供了新的研究思路。4.发现了肺癌组织中SOX4基因突变的发生,综合MATLAB与SwissPdbViewer程序,对SOX4蛋白三级结构进行预测,为蛋白质三级结构的同源建模提供了新的研究方法。
其他文献
多米尼科·斯卡拉蒂是十七世纪下半叶和十八世纪上半叶意大利著名的古钢琴家和作曲家。有一次,伟大的德国音乐家亨德尔在罗马与斯卡拉蒂举行了古钢琴和管风琴演奏两个项目的
处于我国行政体制末梢的乡镇基层政府,其电子政务建设的好坏关系着多方的利益和发展。文章通过对我国乡镇电子政务发展背景和建设中存在的问题进行剖析,提出了相应的对策。
当吴山专于1990年来到西方后,在冰岛的雷克雅维克结识了英格一斯瓦拉·托斯朵蒂尔(Inga Svala Thorsdottir)。后者在巴黎看到了杜尚(Marcel Duchamp)的雪铲。这件作品名为《
<正>《管理办法》对资产评估专业人员有哪些具体要求《资产评估法》将评估专业人员分为评估师和其他评估从业人员。《资产评估行业财政监督管理办法》基于财政监管范围,将资
本文针对中医脉诊特征信息处理,研究了模糊数学算法在中医脉诊客观化分析中的应用.通过剖析传统分析方法在中医脉诊中的局限性,给出了模糊数学算法引入的科学根据,并结合实际
以聚乙烯醇(PVA)和淀粉为原料,采用流延成膜法制备了PVA/淀粉复合薄膜。通过热重分析(TGA)、扫描电子显微镜(SEM)以及力学性能测试,研究了PVA与淀粉的不同混合比例对所制备复
简单阐述继电保护自动化技术的工作原理以及类型,并总结其在电力系统运行中的应用优势,从而分析其实际应用模式,对电力系统健康发展有着积极的意义。
国学作为巨大的思想宝库,已被越来越多的人所认识。特别是几代国家领导人在重大场合讲话时多次引用国学经典中的名言名句,更是让国际国内人士对博大精深的中国文化留下深刻印
以泛在网络为发展趋势的新信息环境为档案行业发展带来了机遇和挑战。本文首先界定了新信息环境的内涵及其典型特征,论述了新信息环境给档案载体的原始记录性、开发与保密、
综述石斛类药材品种的源流和现状。石斛类药材品种十分复杂,已由一种中药单一基源发展到有众多植物基源,涉及的种类达三四十种。经众多学者考证历代本草中石斛的相关记载,以