基于本体的肺癌遗传信息融合知识库构建和知识发现

来源 :中国医科大学 | 被引量 : 2次 | 上传用户:michellehb1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:肺癌是发病率和死亡率增长最快,对人群健康和生命威胁最大的恶性肿瘤之一。WHO网站公布的数据显示,2015年全世界癌症导致880万人死亡,其中因肺癌致死169万人,占整个癌症死因的近20%,排在第一位。肺癌的遗传与变异研究一直是相关领域专家的研究热点。截至2019年3月,在医学文献数据库Pubmed中,与肺癌有关文献超过10万条。随着肺癌相关数据和知识的不断积累,为肺癌的相关数据挖掘研究提供了良好的知识基础。信息管理在卫生事业管理活动中发挥的的作用越来越大。生物医学信息的高效管理和组织不仅能为相关研究提供知识基础和支持,也能为相关领域带来经济效益。为了更加有效的对肺癌文献数据和基因表达数据进行组织、管理,实现知识获取与知识利用,本研究在有效整合现在数据信息的基础上,从非结构化文本中抽取肺癌相关生物学实体以及疾病类型、遗传信息与临床信息之间的联系模式;从表达数据库中获取基因表达、临床特征等信息。然后利用本体论和语义网络知识对多种来源数据进行无缝整合,构建肺癌遗传融合信息知识库,以实现高效组织管理肺癌相关的遗传信息知识,并对遗传与变异等信息进行细粒度注释。知识库可为相关领域研究人员提供知识服务和决策支持,通过将遗传信息与肿瘤调查和预防等信息进行融合,为肺癌筛检、发病风险因素等公共卫生和流行病学研究的开展提供精准的知识基础和数据支持;通过建立遗传信息与肿瘤发生发展、诊断、治疗和预后等信息的联系,为肺癌相关临床研究方案的制定提供决策支持。同时知识库通过基于数据的推理科进行预测肺癌基因调控网络、关键基因等数据挖掘。本研究分为三部分,分别是肺癌遗传信息和临床特征信息数据的挖掘与整合、肺癌遗传信息融合本体知识库构建、应用本体知识库知识基于语义技术构建肺腺癌CASC8基因语义网络和相互作用网络。研究对象与方法:本研究的研究对象主要是是肺癌相关文献数据和基因表达数据,文献数据是从Pubmed中下载;基因表达数据下载自TCGA的LUAD和LUSC项目。研究所需词典数据下载自公共权威数据库。miRNA与mRNA、lncRNA靶向作用数据取自miRWalk和lncBase数据库。在数据挖掘与整合阶段,本研究通过相关文献的文本挖掘,从非结构化文本数据中识别肺癌相关的生物医学实体,包括肺癌类型、临床相关信息(肿瘤调查、诊断、肿瘤病理过程、治疗、预后)、基因和变异等类信息,并从中抽取出各生物医学实体之间的关系。利用生物信息学方法对肺癌相关基因表达数据进行分析,从表达数据中找到肺腺癌和肺鳞状细胞癌的差异表达基因、共表达基因,并对差异表达基因进行生存分析。文本挖掘的过程包括词表构建、语料库准备、分词、词性标记、句法分析、命名实体识别、实体关系抽取。本研究共构建了5词表,分别是疾病、mRNA、miRNA、lncRNA和临床信息词表。研究使用的软件工具包括Python3.7、Stanford coreNLP、Putator等。采取基于词典结合语法规则的方法进行命名实体识别,同时结合一体化生物医学命名体识别工具Pubtator的疾病、基因和变异信息识别结果进行交互验证;实体关系抽取过程采取依存图分析结合路径分析的方法从文本中提取“实体+动词+实体”三元组。本研究使用R软件完成基因表达数据的预处理和后续分析过程。分析过程主要包括利用DEseq2包对表达数据进行校正;使用edgeR包进行基因差异表达分析,使用pheatmap绘制热图;利用WGCNA包对差异表达基因执行WGCNA分析;对差异基因进行Kaplan-Meier曲线单因素生存分析;利用Cytoscape构建ceRNA网络。完成数据挖掘和整合后,在知识库构建阶段本研究遵循本体构建“五准则”,使用“七步法”来完成本体知识库的构建,使用OWL结合RDF和RDFS进行知识表示。知识库构建的软件包括使用Protégé进行本体模型构建;使用MySQL、D2RQ、Apache Jena TDB数据库软件实现本体数据管理;使用Apache Jena进行本体数据的整合和推理。最后本研究利用PHP脚本语言开发肺癌遗传信息本体知识库查询界面,基于链接数据构建CACS8基因的语义网络和基因相互作用网络并据此进行分析和注释。结果:1.数据来源结果。本研究共从Pubmed共下载文献数据107718篇。从TCGA数据库的LUAD项目下载RNA-seq数据515例、microRNA-seq数据513例;LUSC项目下载RNA-seq数据501例、microRNA-seq数据478例。2.文本挖掘结果。分析语料库包括句子文本981396条。命名实体识别过程共识别实体989136个,在与Pubtator下载数据整合清洗后得到实体595694个。按在句子范围内共现进行筛选按后共得实体关系51661对,其中基因与临床关系对30532个,基因与变异4786个,基因与肺癌类型11771个,变异与肺癌类型1750个,变异与临床信息2822个。利用依存句法图分析得到“实体-关系动词-实体”三元组49032个。3.基因表达数据分析结果。经过差异表达分析在LUAD项目中共发现mRNA差异基因2501个,其中上调1958个、下调543个;lncRNA差异基因1503个,其中上调1296个、下调207个;miRNA差异基因共118个,其中上调98个、下调20个。在LUSC项目中共发现mRNA差异基因3488个,其中上调2318个、下调1170个;lncRNA差异基因1687个,其中上调1425个、下调262个;miRNA差异基因共170个,其中上调143个、下调27个。按照log-rank检验p<0.05的显著性水平对差异基因进行筛选,LUAD共有541个mRNA、120个lncRNA和13个miRNA与OS相关;LUSC共有774个mRNA、335个lncRNA和19个miRNA与OS相关。构建LUAD差异表达基因ceRNA网络包括mRNA、miRNA、lncRNA节点39、23、120个,包括lncRNA-miRNA关系对506对,miRNA-mRNA关系对50对;LUSC差异表达基因ceRNA网络包括mRNA、miRNA、lncRNA节点55、28、722个,包括lncRNA-miRNA关系对4532对,miRNA-mRNA关系对68对。4.本体构建过程。构建数据库和映射文件将关系数据库内容转换为RDF数据,通过数据转换共得到2755697条三元组数据。利用Protégé进行本体知识库建模,主要概念包括基因、变异、疾病类型、临床信息、分句文本、关系动词。基因概念除mRNA、miRNA、lncRNA几个子类外,按照基因的表达情况及其与临床信息、肺癌类型的相关关系定义基因子类。肺癌类型概念根据肺癌的病理学分型进行分类,并按照实际疾病类型概念进行了类别层次设置。临床信息概念的子类分别是诊断、肿瘤调查、疾病病理过程、治疗、预后。定义分句文本和关系动词概念可对生物实体来源和“实体-动词-实体”三元组进行表示。知识库的实体类别间的关系主要包括基因、变异、疾病类型、临床信息之间的相关关系,实体与生物医学文本的关系,miRNA、mRNA、lncRNA各自的共表达关系,miRNA与mRNA/lncRNA的靶向关系。在本体模型中定义了6种属性,分别是实体类别相关属性、miRNA靶向作用属性、mRNA与lncRNA反向作用属性、基因共表达属性、实体位置属性、文本包含属性。将本体模型与三元组数据合并后定义推理规则对本体模型进行验证,将基因进行了重新的分类。在应用实例部分,使用SPARQL查询从知识库中获取CASC8基因在肺癌中的分类、表达和关系情况,同时获得其相互作用基因和变异情况,其相关共表达lncRNA73个、靶向差异表达miRNA16个、相关ceRNA网络mRNA127个、变异1个(rs10505477)。相关基因中诊断类基因21个、肿瘤调查类基因13个、治疗类基因76个。同时利用查询信息构建CASC8基因语义网络和基因相互作用网络。结论:1.本研究使用基于词典结合规则的方法对肺癌相关非结构化文献数据进行文本挖掘,成功对肺癌相关生物医学实体进行识别;并利用共现分析、依存句法图分析结合路径分析的方法实现实体间的关系的抽取。2.通过使用自顶向下和自底向上的方法构建肺癌遗传信息本体知识库,在对非结构化文献数据的文本挖掘和对TCGA肺癌项目基因表达数据的生物信息学分析的基础上,整合了已有的基因相互作用知识,同时结合本体顶层建模,实现了肺癌相关遗传和临床特征等知识的完整的无缝整合。3.利用知识库进行基于数据的推理后,将基因按照临床特征信息和表达情况进行了重新分类,实现了对肺癌相关基因与变异信息的细粒度注释。4.通过知识库查询系统的构建实现了知识库信息的查询和可视化显示。研究人员可以利用肺癌知识库查询界面获取基因在肺癌相关基因的注释信息、表达情况和相互作用信息。5.专家应用反馈显示肺癌本体知识库能为肺癌相关的流行病学研究、临床研究在科研选题和结果注释等方面提供知识服务和决策支持。6.以CASC8为例展示了肺癌知识库相关知识的查询过程,获得的基因相互作用网络为相关机制的研究提供潜在的理论基础。
其他文献
目的探讨封闭式玻璃化冷冻载体冻存小鼠卵母细胞的可行性。方法以小鼠MII期卵母细胞为模型,以开放式玻璃微细管法(GMP)为对照组,比较两种玻璃化冷冻载体对小鼠卵母细胞冷冻后的
<正> 质量是企业的生命。质量是企业永恒的主题。数年前就有科学家预言,"21世纪是质量的世纪"。中国标准出版社编辑室定义:术语"质量(Quality)"在一些使用汉语的国家和地区,
介绍了尼龙-6己内酰胺回收处理工艺的发展以及目前己内酰胺回收工艺的现状。
作为国民经济发展的支柱产业,近些年来,我国建筑业发展速度逐步减缓,新签合同额增幅连年降低,行业利润率增长速度减慢,亏损企业比率及总数不断增多,行业竞争越发白热化。但是
随着全球经济一体化的不断深入,世界各国和地区之间的经济活动联系更加密切。企业为了寻求持续健康的发展,纷纷选择国际化经营。2013年习近平总书记提出“一带一路”合作倡议
共轭梯度法是优化算法中的一种介于最速下降法与牛顿法之间的算法。在非线性最优化中,非线性共轭梯度法是重要方法之一,并有着六十多年的历史。本文首先在第一章对方法作研究
《民法总则》的生效对网络虚拟财产的保护作出了原则性规定,将网络虚拟财产确定为民事权利客体,纳入民法保障范围,但关于网络虚拟财产保护的具体途径,如继承问题等并没有定论,其司法操作存在诸多不确定性。对于何谓“网络虚拟财产”,目前国内尚未有法律对其做出界定。《民法总则》于2017年3月15日通过后,即对数据、网络虚拟财产的保护做出了明确表示的,但同样没有界定其概念。据此,网络虚拟财产的种类划分,不同网络
多目标优化问题(Multi-objective Optimizaiton Problems,简称MOPs)普遍存在于工程实践以及科学研究中。MOPs包含多个需要同时优化的目标函数,并且各个目标函数之间是互相矛
目的探讨分析临床急性湿疹患者应用黄芩的治疗效果与药理分析。方法收集我院在1年内收治的急性湿疹患者100例,将其进行随机分组,即对照组和观察组,分别实施常规治疗以及在此
随着生活水平与生活质量的提高,越来越多的人关注到死亡作为生命发展的重要部分,应该给予积极地关注。癌症作为严重威胁人群健康的公共问题之一,影响了人们的生活质量与生命