论文部分内容阅读
肺癌是一种常见的肺部恶性肿瘤。近年来,随着各种环境因素的影响,世界各国特别是工业发达国家,肺癌的发病率和病死率均迅速上升,位居恶性肿瘤发病率和死亡率首位,严重威胁了人们身体健康。然而,到目前为止,肺癌的发生分子机制依然不清楚,难以有效的进行早期诊断和治疗。鉴于此,本论文利用生物信息学方法,分别从基因差异表达数据挖掘、蛋白质相互作用预测及其网络的构建等方面探讨了非小细胞肺癌的分子作用机制。同时对部分生物信息学分析结果进行了分子生物学验证。考虑到非小细胞肺癌是肺癌的主要类型,因此本论文所用数据来源于GEO数据库中肺鳞癌、肺腺癌数据集,具体工作内容如下:第一,综合BRB-Array Tools和MATLAB程序,分别对肺鳞癌数据集(GDS1312)和肺腺癌数据集(GDS1650)进行数据挖掘。试图阐述两个方面问题:一是基因表达模式是如何在非小细胞肺癌中发生变化的;二是差异表达基因参与的代谢途径有哪些以及代谢途径在非小细胞肺癌发生过程中的可能作用。GDS1312中包括5例肺鳞癌组织及对应正常癌旁组织的全基因组表达数据。数据挖掘结果显示,肺鳞癌中共筛选出409条表达上调的基因和877条表达下调基因;经GO分类对比共有1730条基因与95个GO分类匹配,主要涉及细胞骨架、细胞增殖调控、程序性细胞死亡、免疫应答及蛋白酶等;KEGG通路主要涉及物质代谢、细胞周期及疾病相关等通路;BioCarta通路主要涉及细胞黏附、细胞周期调控、细胞免疫、细胞信号及物质代谢等通路。GDS1650中包括10例肺腺癌组织及对应正常癌旁组织的全基因组表达数据。数据挖掘结果显示,肺腺癌中共筛选632条表达上调基因和975条表达下调基因;经GO分类对比共有1358条基因与63个GO分类匹配,主要涉及细胞骨架发生、细胞黏附、细胞识别、血管发育、蛋白激酶束缚等;KEGG通路分别涉及细胞黏附分子通路、白细胞跨内皮迁移通路、VEGF信号通路、mTOR信号通路与细胞周期通路;BioCarta通路与肺鳞癌类似,分别涉及细胞黏附、细胞周期调控、细胞免疫、细胞信号及物质代谢等通路。第二,基于支持向量机(SVM)的蛋白质相互作用(PPI)预测。以任意连续的两个氨基酸所构成的特征作为一个描述符(二氨基酸特征单元),计算每一个特征单元在蛋白质序列中出现的频率。以此构建一个二元向量空间(V, F)来描述每一个蛋白质序列,将蛋白质序列的PPI信息映射进入特征向量空间。利用支持向量机(SVM)的学习方法,采用径向基函数作为核函数,构建了蛋白质相互作用预测模型。并用10次的10倍交叉验证以检测预测模型的可靠性。这种方法能够产生一个精确度超过83%的稳定PPI预测模型。第三,以肺鳞癌、肺腺癌的差异表达基因为依据,构建与肺癌相关的蛋白质数据,通过二次筛选获得与肺鳞癌、肺腺癌发生高度相关的蛋白质分别为95个和178个,其中有19个蛋白在肺鳞癌、肺腺癌中共表达。将这些蛋白质分别与HPRD数据库进行检索,获得目前已有的全部PPI数据,并整合SVM预测的蛋白质相互作用信息。删除自作用数据和冗余数据后,利用Cytoscape程序构建肺癌相关蛋白质相互作用网络。计算网络的中心节点(核心蛋白),其中肺鳞癌相关PPI网络有19个核心蛋白,肺腺癌相关PPI网络有35个核心蛋白。探讨核心蛋白在肺癌发生分子机制中的可能作用,并提出肺癌发生的“分子群”假设。第四,为验证上述生物信息学分析结果,从在肺鳞癌、肺腺癌共表达的基因中筛选6个基因,采用半定量RT-PCR方法检测这些基因在肺鳞癌、肺腺癌细胞株中的表达情况。结果表明,5个基因在两种肺癌细胞株中均有表达,显示这些基因在肺癌细胞株中的表达具有一定的“相关性”,其中SOX4基因呈现高表达,提示该基因可能与肺癌发生有一定关系。为此,采用PCR-SSCP及DNA测序技术,对90例肺癌组织标本进行SOX4基因突变检测,发现部分肺癌组织中有SOX4突变的发生。综合MATLAB与SwissPdbViewer程序,对突变SOX4蛋白三级结构进行预测。结果显示,突变导致SOX4蛋白的侧链结构发生改变,影响了该蛋白与其它分子的相互作用功能。由于SOX4蛋白是一类与发育相关的转录调控因子,暗示SOX4突变可能是导致肺癌发生的一个潜在因素。综上所述,肺癌发生并非是由单个或几个基因或蛋白质能够决定其发生机制的,它可能是由众多与肿瘤发生相关的“分子群”形成的复杂调控系统。本论文的主要创新点:1.综合MATLAB程序与BRB-Array Tools软件,对非小细胞肺癌差异表达基因数据进行挖掘,为基因芯片数据挖掘提供了新的研究方法,并从基因表达水平探讨了肺癌发生的可能分子机制。2.以任意连续的两个氨基酸特征作为一个描述符,设计一种基于支持向量机(SVM)的蛋白质相互作用(PPI)预测方法。该方法能最大限度地保证蛋白质对中氨基酸信息的完整性,并以MATLAB作为实验平台,极大地减小算法实现的难度。3.利用基因表达数据挖掘结果,获得与肺癌发生高度相关的蛋白质数据,并结合数据库中的PPI信息,构建了肺癌发生相关蛋白质相互作用网络。以PPI网络中的核心蛋白为主体,提出肿瘤发生的“分子群”假设,为肺癌发生分子机制研究提供了新的研究思路。4.发现了肺癌组织中SOX4基因突变的发生,综合MATLAB与SwissPdbViewer程序,对SOX4蛋白三级结构进行预测,为蛋白质三级结构的同源建模提供了新的研究方法。