论文部分内容阅读
在后基因组时代,生命科学研究不断涌现出海量的生物数据。绝大多数生物医学新现象、新发现、新的实验数据以论文形式发表在科学期刊上,以文本形式呈现出来。大量生物信息散布在各种文献中。对于这些海量的生物医学文献进行处理,可以提炼出更多的生物信息,挖掘新的生物医学知识。手工方式无异于大海捞针,而生物医学文本挖掘是深海寻宝的有力工具。本课题围绕着生物医学文本挖掘技术展开了深入的研究,主要包括以下几个方面。 (1)生物医学命名实体的识别。针对于生物医学命名实体的多词及生物学意义的赋予问题,我们提出了基于词性计算语言学的多类命名实体识别方法。该方法从计算语言学的词性标注、语法处理、语义处理等角度入手,在语法处理阶段通过设置有限状态机来识别名词短语,解决实体的多词问题,在语义阶段通过本体学方法为实体赋予生物学含义。该方法可以不受限于标注的语料库,能够识别多类生物医学实体,平均可达到83.1%的精确率。针对疾病与基因关系的实际分析,提出基于词形计算语言学的人类基因命名实体识别方法,该方法首先利用有限状态机识别初始基因,再利用基于本体法识别最终的基因,这一方法可准确、快速识别文本中的人类基因从而适用于文本挖掘实际应用系统的开发。 (2)生物医学实体关系的抽取。在这一方面,利用我们发展的生物医学实体识别方法,针对基因与疾病的国际研究热点,提出了一种以疾病为中心的实体关系抽取方法。该方法以基于统计的实体共现分析为基础,通过设置相关性因子来衡量实体关系的强弱,发展出描述疾病与基因之间关系的螺旋表示法、给出描述基因与基因之间关系的圆周表示的可视化方法。螺旋表示法可以直观描述疾病与基因的相关程度,而圆周表示法则可通过推理找出基因之间间接关系。 (3)疾病易感基因的挖掘。本研究中主要是针对疾病基因优化的问题,研究通过计算方法来发现疾病易感基因。我们从不同角度发展了基于关联关系分析的功能基因发现方法和基于潜语义的功能基因发现方法。这两种方法都是在已有先验知识下产生的,基于关联关系分析的功能基因发现方法通过在已知的疾病基因与后选基因之间建立关联关系从而对后选基因进行预测,而基于潜语义的功能基因发现方法则是利用奇异值分解的潜语义映射从功能注释信息的潜在语义结构中寻找未知基因与已知疾病基因之间的关系,从而达到预测的目的。实验结果表明这两种方法能够有效地发现疾病基因,从而进一步促进了生物医学文本挖掘技术的发展。 (4)生物医学分子事件提取。针对生物医学分子事件这一具体明确的实体关系提取方面,我们发展了一种基于深层剖析技术的生物医学分子事件的抽取方法。这一方法可以抽取明确的,更具有生物意义的分子事件。通过把生物医学实体邻区中有意义的词扩展进生物医学实体之中,不仅考虑动词主导的分子事件,而且也考虑介词主导的分子事件,从而极大地丰富捕捉的生物医学分子事件。使用逐点互信息对抽取的生物医学分子事件进行排序。最后通过发展的语义环可视化表示法把抽取的生物医学分子事件展示成语义网络形式,这一语义网络可视化不仅能表现抽取的文本中直接的生物医学分子事件,而且也能预测间接的生物医学分子事件。 (5)面向基因与疾病文本挖掘平台构建。构建的这一原型平台整合了命名实体识别、关系抽取、生物医学分子事件、功能基因发现、疾病遗传信息各个模块。针对孤独症这一复杂疾病的研究,我们开发了一个孤独症基因信息系统:AutMiner。这一系统利用我们发展的生物医学文本挖掘方法抽取孤独症易感基因,发现孤独症与基因之间、基因与基因之间的关系。建构了以孤独症为中心的网络关系;提出一种得分-紧密度向心性方法来衡量孤独症疾病与易感基因之间的敏感强度;实现了自动发现孤独症易感基因相互作用之间间接的关系,这也是本研究与其它相似的工作相比的创新性成果。提供的富集的孤独症基因信息可为孤独症疾病研究者提供计算证据,辅助实验人员发现新的孤独症基因,同时它也可为国际上孤独症数据库资源增添新数据。