利用生物学网络研究疾病的分子机制和预后

来源 :中国人民解放军军事医学科学院 | 被引量 : 1次 | 上传用户:jiangnannan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
疾病时刻威胁着人类的健康和生活,严重情况下甚至可以导致死亡。由于技术水平的限制,多年以来,小规模、低通量的疾病遗传学研究往往停留在实验室水平上,对疾病的临床控制作用有限。近年来,随着基因组学和蛋白质组学的发展,众多研究机构利用组学实验手段产生了海量的与疾病有关的实验数据,用于研究疾病的发生、发展过程以及寻找可能的治疗方法。通过生物信息学手段对海量数据的大规模挖掘,人们发现了大量基因、蛋白质以及生物学通路与疾病表型相关联,这些研究成果为疾病机制的研究和可能的临床诊断奠定了基础。尽管疾病的组学研究已经取得了长足发展,但是仍然存在一些亟待解决的问题:首先,某些研究工作往往围绕着特定疾病的病理过程进行设计,很难推广到其他疾病研究中去;其次,一些基于大规模基因芯片表达数据的研究,鉴定出了大量差异表达的基因或者蛋白质,但对于如何解读这些结果,尤其是如何揭示这些基因或者蛋白质联合作用对疾病发生发展的影响却不甚明了;再次,很多研究往往使用单一生物学实验数据,分析结果的假阳性高;另外,缺少通用的跨实验平台的组学数据综合分析软件。为解决以上问题,本文从多种组学数据和先验生物学知识出发,设计和建立了一系列数学模型和分析策略,有效地鉴定出了一系列与疾病相关的通路和蛋白质相互作用子网,并用鉴定出的蛋白质子网成功地预测了乳腺癌的预后。本文建立的研究方法和体系可应用于不同疾病的机制和诊断研究,具体内容如下:首先,为了预测疾病条件下基因间的调控关系,本文基于基因芯片数据,发展了一种整合主成分分析、皮尔森相关系数和支持向量机分类器的预测策略。目前现有的很多调控关系预测方法,都是直接基于原始数据进行分析预测的,这些方法忽略了芯片数据的噪声影响,以及基因之间的相互作用关系。利用数据降维算法能抽取基因芯片数据的关键信息,降低噪声影响;而结合基因表达相关性参数——皮尔森相关系数(PCC),能够同时考虑基因间的相互关系。我们利用数据降维算法——主成分分析法(PCA)抽取基因表达特征,进而利用这些特征和基因表达水平之间的皮尔森相关系数建立了用于衡量基因间调控关系的新参数FAB,并将其输入到支持向量机分类器(SVM)里面,预测基因间的调控关系。预测结果显示,选择合适的数据降维算法和合适的特征向量定义的调控参数,能以较高的准确度、特异度和灵敏度预测基因间的调控关系,这项工作为研究疾病条件下基因间的调控关系奠定了基础。其次,为了研究疾病的发生发展机制,本文提出了一套疾病相关通路和重要基因的鉴定策略,并成功将其应用到了II型糖尿病患者和吸烟影响的人群数据集上。通过整合疾病基因芯片表达数据集和已有生物学通路数据库(KEGG通路数据库和BioCarta通路数据库),首次引入非负矩阵分解分析策略(NMFAS)分析疾病人群和正常人群的通路活性水平的差异表达情况,并解决了该算法解不唯一性问题,鉴定出了疾病人群机体内活性显著差异的生物学通路,并通过分析通路成员基因对通路活性的贡献值,鉴定出与疾病表型潜在相关的重要基因,从而为研究疾病的发生发展过程提供了重要线索。最后,本文给出了一种基于蛋白质相互作用网络的疾病诊断和预后预测策略。以乳腺癌转移数据为研究对象,从已知的乳腺癌相关基因出发,利用随机行走算法(Random Walk)在人类蛋白质相互作用网络中寻找潜在的乳腺癌相关子网,并进而基于这些子网的基因累积表达信息,利用支持向量机(SVM)分类器预测乳腺癌的转移。通过对标准数据集的分析,该算法能够有效的找到疾病表型相关基因和乳腺癌相关蛋白质相互作用子网,并且在预测乳腺癌转移时,该策略在预测正确率、敏感度和特异度方面取得了理想的结果。总之,本文从基因、基因调控关系、蛋白质相互作用子网和生物学通路等多个方面,系统研究了与人类疾病的发生发展相关的分子和相互作用。通过综合考察已有生物学知识、基因表达、基因调控、生物学通路和蛋白质相互作用信息,利用数据降维算法、机器学习分类算法、网络传播算法等多种数据挖掘方法鉴定与疾病潜在相关的基因、蛋白质或者蛋白质子网,并利用鉴定得到的疾病相关蛋白质子网成功进行了疾病诊断。本文提出的这一系列方法可以在一定程度上避免了现有方法的不足和限制,提高了现有方法的预测准确度和灵敏度,从而促进了对疾病条件下的生物分子、网络乃至整个生物系统的理解。另外,本文方法均可从一种疾病推广到其他疾病,具有良好的扩展性。本文的主要创新点包括:利用数据降维算法抽取基因芯片的表达特征结合基因共表达强度参数预测基因间的调控关系,提高了预测准确率和敏感度特异度;首次引入非负矩阵分析策略鉴定疾病相关生物学通路和重要基因;利用网络传播算法分析疾病相关蛋白质相互作用,并用于预测疾病预后,在预测敏感度、特异度方面有较大提高。几部分研究内容互相支撑,互为补充,并且具有较强的通用性和可扩展性,可以应用于不同疾病的机制研究和诊断,将会为疾病标志物和药物靶标的发现以及疾病的临床诊断提供重要参考和帮助。
其他文献
我国原有教师教育体制存在大学与中小学区位分割、职前教师培养主体单一、培养方式方法重知识轻能力、行政部门对教师培训干涉过多、大学教师教学研究脱离中小学实际等问题。
学生学习英语的主要渠道是课堂。英语课堂的教学目标之一,就是要促进学生创新思维能力的发展,最终使其能够运用英语进行交际。思维是人类特有的,是人脑对客观现实的反映。语
人民银行渭南市中心支行大力加强人民币发行库安全管理。创新管理手段,增加科技含量,提高物理防范和技术防范水平,降低发行库风险。中心支行党委高度重视安全保卫的基础性建设工
随着我国基础教育改革的深入,众多教育研究者和中小学一线教师潜心钻研中小学学科教学理论,并通过实践探索高质有效的教学方法和教学策略,力求高质量完成教学任务,保证教育质
期刊
目的:通过缓释利福平微球体外和体内脊柱旁局部给药释药实验,研究该微球在体外和体内脊柱旁释药特点;在兔腰椎上钻孔植入标准结核菌株H37Rv建立兔脊柱结核模型,为将来进行同类实
学习意义强权是指教师凭借自身的优势地位或权势作出让学生服从的决定性结论。学习的意义强权外显为学生的服从、顺从和依从,包括意识强权、言语强权和行为强权,导致学生自主
期刊
陀螺正常工作是船载雷达及时捕获目标、保证高跟踪精度的前提条件和保障。介绍了船载雷达陀螺仪的工作原理及其陀螺特性,结合设备故障和系统存在的隐患风险,对海上恶劣环境下
近年来,刚察县着眼于“党性最强、作风最正、工作出色”的要求,把提高组织工作质量标准作为检验工作成效的根本,从加强自身建设和提高组织工作满意度内外两方面入手,以“工匠