论文部分内容阅读
■背景给定一组基因,如从高通量技术筛选出来的差异表达基因,掌握它们参与的生物学过程、功能和分子网络对解析它们有很大的帮助。鉴定与某个生物医学事件相关的人基因,例如各种疾病、生物或病理过程、基因功能等,对于生物医学研究者、数据库的创建者和注释者都有非常重大的价值。在网络医学时代,收集所有已知的相关基因,如已有文献报道、或生物审编者注释的基因,进一步地构建与之对应的基因网络,对于发现参与某个特定的生物医学事件的新基因和提示潜在的分子机制都有重要的意义。人工审编的数据库或工具是这两个问题的标准解决方案,基因本体论(Gene Ontology,GO)用结构化的受控词汇注释基因或基因产物的基因功能、生物学过程和细胞定位,KEGG通路数据库绘制各种代谢通路,HPRD、BioGRID和IntAct等数据库从科技文献中审编和归档蛋白-蛋白相互作用(PPI,Protein-Protein Interaction)。不少注释工具整合了这些人工审编数据库使注释变得更加方便和可行,如DAVID和EGAN。一些更细化的数据库也可以查找与定义好的主题相关的基因,抑癌基因数据库(TSGene)鉴定了数百个抑癌基因,oncomiRDB数据库注释了有实验验证的致癌和抑癌的miRNAs,LncRNADisease数据库审编了文献中有实验证实的LncRNA-疾病关联的数据。CTD(Comparative Toxicogenomics Database)提供了大量人工从文献中审编的化合物-基因、化合物-疾病和基因-疾病的相互关系,并整合这些数据产生化合物-基因-疾病网络。这些人工审编的数据库提供了有效的解决方案,然而,基于知识的覆盖面仍然不够全面,主要原因是生物医学文献的增长迅猛、结构化的词汇不能跟上新术语的产生、以及人工审编是一项费时费力的工作。PubMed数据库已包含超过2400万条生物医学文献的索引并且以每年4%的速度增长。对于生物审编专家来说,有所需的功能和易用界面文献挖掘工具在他们的注释流程中也是迫切需要的。一些文献挖掘工具可以在一定程序上弥补这些问题。Martini和CoPub 5.0使用了基于关键词的方法注释基因功能,不过关键词仅限于事先定义好的词库。iHOP和STRING构建基因网络基于基因在文献中的共现关系,然而有研究表明即使两个基因是共现于同一个句子也只有30%的可能是在描述相互作用。FACTA+、EBIMed和Polysearch可以在MEDLINE摘要发现隐藏的不同生物医学概念之间的相互关系,使得它们能够帮助用户查找与搜索词相关的基因。然而,FACTA+和EBIMed不能搜索词组,相反PolySearch不能搜索多个单词。DGA(Disease and Gene Annotation)数据库整合了GeneRIF、疾病本体(Disease Ontology)和分子相互作用网络来构建疾病-基因、基因-基因和疾病-疾病的关系网络。然而,GeneRIF句子中有大量的疾病名称是以缩略词而不是全称出现,使得DGA建立的疾病-基因关联并不完整。本课题拟采用文献挖掘的方法进行三个方面的研究:(i)以自由词来注释人基因功能,自由词可以是文献挖掘产生也可以是用户提交;(ii)从MEDLINE摘要中准确识别和整合广泛的分子相互作用,以此构建基因网络以及与自由词相关的子网络;(iii)充分挖掘与任意自由词共同出现在文献中的基因,实现高效地检索与任意主题相关的基因,并构建它们的基因网络。最终形成两个相应的网络版分析应用工具GenCLiP2.0和CooLGeN。■材料与方法1、文献挖掘人基因功能和基因网络。(1)基因相关摘要识别整合NCBI Gene和HGNC收录的每个基因编号对应的官方名称和别名。进一步编辑基因库,排除无意义的术语、歧义性很强的术语和常见的英语词汇,并且根据基因名称拼写规则扩展基因库。基因名称识别使用基于字典和基于规则的方法来确定摘要中出现的基因名称及对应的基因编号。在BioCreative II Gene Normalization(GN)的训练集和GenCLiP单机版的基础上重新整理制定的一系列复杂的识别规则。基因名称识别方法在MEDLINE摘要中识别基因名称并确定每个基因编号对应的摘要,创建基因-摘要(GID-PMID)的关联。(2)基因功能注释和聚类分析在基因相关摘要中筛选高频出现的术语(包括单词、GO术语和有缩略词的词组)作为基因的关键词。根据用户提交的基因,采用模糊聚类的算法将关键词的注释结果进行分组,该方法首先用kappa统计值评价关键词与关键词之间的密切程度,再将密切相关的关键词聚成一类。用户可以自由编辑关键词来注释输入基因,可以添加或者移除关键词。根据用户选择的关键词和输入的基因可以产生聚类分析的热图。(3)分子相互作用识别基于规则的分子相互作用识别方法在句子中从头挖掘分子相互作用,该方法从5个包含PPI注释的PPI语料库:AImed、BioInfer、HPRD50、IEPA和LLL中总结归纳,充分衡量基因和调控词的上下文,基因间和基因与调控词之间的距离等。4个PPI数据库HPRD、BioGRID、CORUM和IntAct中的基因对如果出现在句子中则加入分子相互作用数据。收集所有出现基因对的句子,以及它们所在的摘要作为基因对的上下文。(4)基因网络构建基因网络的构建是基于分子相互作用数据库的基因对,子基因网络在用户提交指定的自由词后根据基因对所在的上下文构建,当基因对和自由词共同出现在一个句子或者摘要时边的连接则成立。节点的边框以高亮的颜色提示与用户提交的搜索词相关的基因。另外,用户还可以构建上调和下调基因的基因网络,基因网络中以不同颜色区分两者。在构建网络的同时进行随机模拟用于评价生成的网络是否特异于输入基因。2、与任意主题相关的基因和基因网络(1)基因相关MEDLINE摘要和句子基因名称识别程序将MEDLINE摘要中的的基因识别并指定对应的基因编号(GID),建立GID-PMID关联。将摘要分割成句子(SID)并识别出现的基因,建立SID-PMID关联。将摘要和句子中的单词和词组索引,关联GID,SID和PMID,支持词相关基因检索。(2)提取和补充GeneRIF句子每个GeneRIF句子包括了一个基因编号(GID)和PMID。我们提取描述人基因的句子(RID),建立GID-RID关联。用BioADI和Allie库鉴定的缩略词和全称形式用于补充GeneRIF句子中未定义的缩略词。根据指定的基因编号和基因字典识别句子中的基因名称,建立单词和词组的索引,关联GID和RID,支持相关基因的搜索。(3)分子相互作用数据基因/蛋白相互作用数据由两种类型的组成:审编的PPIs,由HPRD、BioGRID、IntAct和CORUM整合而来;文献挖掘的分子相互作用,由分子相互作用识别程序自动挖掘而来。互作的数据用于在探索基因-基因关联时提示用户哪些是已知的互作因子,根据所选基因构建与某个基因或者某个主题可能特异的基因网络。3、网络平台的开发。GenCLiP 2.0和CooLGeN采用典型的LAMP平台(Linux + Apache + MySQL +PHP/Perl)搭建,设计友好的用户使用界面。基因和关键词的平均连锁等级聚类由Cluter3.0的Perl模块完成,再由PHPGD库生成热图输出。可交互的基因网络用基于Flash的Cytoscape Web和jQuery JavaScript库构建。4、网络平台的应用和比较以周期表达的细胞周期相关基因检验GenCLiP 2.0在关键词注释方面的性能,与Martini、FatiGO和CoPub的注释进行比较。GenCLiP2.0分析瘢痕疙瘩与增生性瘢痕比较的差异表达基因,与CoPub,STRING和DAVID等比较对应的功能。CooLGeN查找EZH2的互作因子和与上皮-间充质转换相关的基因和基因网络,与iHOP、PolySearch、EBIMed、CoPub和FACTA+比较相应的功能。■结果1.我们的基因名称识别程序在BioCreative II(GN)的测试集上达到了查全率83.8%,准确率81.8%,F值82.8%,优于当时竞赛的测试方法。在iHOP的测试集上测试F值为0.86,结果优于iHOP。在MEDLINE摘要库中,我们识别到了20228个基因出现在了约378万篇摘要和1482万个句子中。2.总共确定了 16703个关键分配给了20160个基因,4143个关键词是有缩略语的词组,2313个为GO术语。分子相互作用识别程序总共识别到了 10937个基因形成了83037对分子相互作用,其中有69059对是未被其它4个PPI数据库收录的。在测试集和我们随机取出样本中,识别的准确率都将近90%。在整合4个数据库后,分子相互作用数据达到了 104734对,共有约275万个句子和108万个摘要的背景知识。3.GenCLiP 2.0(http://ci.smu.edu.cn/GenCLiP2.0/)是一个基于网络的分析工具,通过3个功能分析人基因:(i)从基因相关摘要中计算高频率出现的词汇和用户提交的自由词产生关键词,并进行富集分析和聚类分析;(ii)用准确识别的分子相互作用数据构建基因网络和构建与用户提交搜索词相关的子网络;(iii)基因的GO术语和通路富集分析和聚类分析。4.CooLGeN网址:http://ci.smu.edu.cn/Test/CooLGeN/,主要包括三种网页界面:输入界面、结果基因与文献查阅界面和基因网络可视化界面。输入分成两种类型:自由词和基因官方名称,支持发掘与自由词相关的基因和基因-基因的关联。输入自由词时支持布尔逻辑搜索,用户可以同时输入多个单词或词组。文献上下文包括了 MEDLINE摘要和句子以及GeneRIF句子。用户可以从结果基因中选择或者另外添加基因构建网络。5.GenCLiP 2.0分析118个瘢痕疙瘩差异表达基因时,富集的关键词主要与细胞生长、细胞外基质、上皮间充质转换、细胞迁移、间充质干细胞和伤口愈合。我们人工添加胶原作为检索词时,结果有10个上调基因与胶原密切相关。以上关键词与瘢痕疙瘩的特点非常一致,与传统观点不同的是,角化细胞和角化细胞分化也注释为关键词,这提示我们应注意角化细胞。基因网络的结果显示MMP2在网络中扮演得重要角色,并且MMP2的激活因子THBS2、CST2和GLB1是上调表达基因,抑制因子IL1RN、S100A8和S100A9是下调表达基因,这些基因大多数在瘢痕疙瘩中还未有研究。因此,我们认为异常表达的基因可以导致MMP2的上调表达,可能影响瘢痕疙瘩的进程。GenCLiP 2.0的分析与同类软件相比有它独特的优势。6.在实际应用示例中CooLGeN可以快捷地找出文献有报道的与EZH2有关联的基因,经我们初步查阅后确定了 51个尚未在人工审编数据库有注释的互作因子。在查找与上皮-间充质转换过程相关的基因时,CooLGeN支持布尔逻辑检索多个自由词快速找出了与之有共现关系的基因,我们从中确认了 140个未在GO数据库中注释的基因,以此构建的基因网络也反映出了EMT复杂的互作网络。与同类软件相比较,CooLGeN在查找相关基因时更便捷和高效,满足更多科研工作者的需求,并且是第一款支持布尔逻辑检索的工具。■结论1.我们研发了基于网络的文献挖掘软件GenCLiP 2.0,可以分析一组人基因富集的关键词和它们的分子相互作用。相比较于同类软件,它主要有两个独特之处:(i)以自由词来注释人基因功能,自由词可以是文献挖掘产生也可以是用户提交;(ii)从MEDLINE摘要中准确识别和整合广泛的分子相互作用,以此构建基因网络以及与自由词相关的子网络。GenCLiP2.0在阐明疾病的分子机制,构建疾病的分子网络,发现诊治的靶点等方面具有独特的优势。但是,其缺点是注释的假阳性率较高,不如GO和KEGG等人工注释数据库可靠。2.CooLGeN是一款新的文献挖掘工具专门用于挖掘与任意搜索词和基因一同在文献中出现的基因,以及构建这些基因的基因网络。它强大的功能为生物医学研究者们鉴定感兴趣的基因以及它们的相互作用提供了有力且高效的解决方案,同时它可以帮助生物审编专家们注释基因的相关信息。