生物医学信息的文本挖掘技术研究及其应用

来源 :东南大学 | 被引量 : 0次 | 上传用户:li81641143
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在后基因组时代,生命科学研究不断涌现出海量的生物数据。绝大多数生物医学新现象、新发现、新的实验数据以论文形式发表在科学期刊上,以文本形式呈现出来。大量生物信息散布在各种文献中。对于这些海量的生物医学文献进行处理,可以提炼出更多的生物信息,挖掘新的生物医学知识。手工方式无异于大海捞针,而生物医学文本挖掘是深海寻宝的有力工具。本课题围绕着生物医学文本挖掘技术展开了深入的研究,主要包括以下几个方面。  (1)生物医学命名实体的识别。针对于生物医学命名实体的多词及生物学意义的赋予问题,我们提出了基于词性计算语言学的多类命名实体识别方法。该方法从计算语言学的词性标注、语法处理、语义处理等角度入手,在语法处理阶段通过设置有限状态机来识别名词短语,解决实体的多词问题,在语义阶段通过本体学方法为实体赋予生物学含义。该方法可以不受限于标注的语料库,能够识别多类生物医学实体,平均可达到83.1%的精确率。针对疾病与基因关系的实际分析,提出基于词形计算语言学的人类基因命名实体识别方法,该方法首先利用有限状态机识别初始基因,再利用基于本体法识别最终的基因,这一方法可准确、快速识别文本中的人类基因从而适用于文本挖掘实际应用系统的开发。  (2)生物医学实体关系的抽取。在这一方面,利用我们发展的生物医学实体识别方法,针对基因与疾病的国际研究热点,提出了一种以疾病为中心的实体关系抽取方法。该方法以基于统计的实体共现分析为基础,通过设置相关性因子来衡量实体关系的强弱,发展出描述疾病与基因之间关系的螺旋表示法、给出描述基因与基因之间关系的圆周表示的可视化方法。螺旋表示法可以直观描述疾病与基因的相关程度,而圆周表示法则可通过推理找出基因之间间接关系。  (3)疾病易感基因的挖掘。本研究中主要是针对疾病基因优化的问题,研究通过计算方法来发现疾病易感基因。我们从不同角度发展了基于关联关系分析的功能基因发现方法和基于潜语义的功能基因发现方法。这两种方法都是在已有先验知识下产生的,基于关联关系分析的功能基因发现方法通过在已知的疾病基因与后选基因之间建立关联关系从而对后选基因进行预测,而基于潜语义的功能基因发现方法则是利用奇异值分解的潜语义映射从功能注释信息的潜在语义结构中寻找未知基因与已知疾病基因之间的关系,从而达到预测的目的。实验结果表明这两种方法能够有效地发现疾病基因,从而进一步促进了生物医学文本挖掘技术的发展。  (4)生物医学分子事件提取。针对生物医学分子事件这一具体明确的实体关系提取方面,我们发展了一种基于深层剖析技术的生物医学分子事件的抽取方法。这一方法可以抽取明确的,更具有生物意义的分子事件。通过把生物医学实体邻区中有意义的词扩展进生物医学实体之中,不仅考虑动词主导的分子事件,而且也考虑介词主导的分子事件,从而极大地丰富捕捉的生物医学分子事件。使用逐点互信息对抽取的生物医学分子事件进行排序。最后通过发展的语义环可视化表示法把抽取的生物医学分子事件展示成语义网络形式,这一语义网络可视化不仅能表现抽取的文本中直接的生物医学分子事件,而且也能预测间接的生物医学分子事件。  (5)面向基因与疾病文本挖掘平台构建。构建的这一原型平台整合了命名实体识别、关系抽取、生物医学分子事件、功能基因发现、疾病遗传信息各个模块。针对孤独症这一复杂疾病的研究,我们开发了一个孤独症基因信息系统:AutMiner。这一系统利用我们发展的生物医学文本挖掘方法抽取孤独症易感基因,发现孤独症与基因之间、基因与基因之间的关系。建构了以孤独症为中心的网络关系;提出一种得分-紧密度向心性方法来衡量孤独症疾病与易感基因之间的敏感强度;实现了自动发现孤独症易感基因相互作用之间间接的关系,这也是本研究与其它相似的工作相比的创新性成果。提供的富集的孤独症基因信息可为孤独症疾病研究者提供计算证据,辅助实验人员发现新的孤独症基因,同时它也可为国际上孤独症数据库资源增添新数据。
其他文献
化工、石油化工、火力发电以及核电工业中存在高温高压管线.长期工作在高温高压下的管道材料,在温度和应力作用下,材料的显微结构、力学性能、耐热性能、物理性能都会缓慢地
微生物种类多样、数量巨大,能适应各种生存环境,与人类的健康、疾病、生产、生活、环境保护和能源开发等密切相关。其中,产电微生物能够通过无氧呼吸,将氧化有机物产生的电子传递
该文将以煤灰中钾钠类碱性矿物元素行为的矿物学研究为重点展开系统深入的研究.首先采用两种煤作为试样,在煤中添加KO、NaO添加剂,测定其熔融温度的变化特性和矿物质形态特性
人体组织介电特性磁共振断层成像(MR EPT)技术是近年来兴起的一个磁共振领域的研究热点,它主要目的是研究怎样从MRI医学影像中获取人体组织介电特性(EPs)分布信息。通过探测正常组
乙型病毒性肝炎感染是一个全球性的问题,乙肝病毒分子诊断对于乙肝疾病的预防和治疗具有重大的意义。磁性纳米颗粒作为纳米材料的一个重要组成部分,由于其在缓冲体系中具有高比
小学班主任是儿童知识的启蒙者、儿童智力的开拓者、儿童心灵的陶冶者.在培育影响学生健康成长的小环境上起主要作用.小学班主任工作内容复杂,任务繁重,但只要我们善于采撷教
期刊
语文学习影响学生方方面面,它对于提高学生文化素养、道德修养,以及学习其它学科知识、今后学习和工作等都有着重要的意义.在初中语文教学的各个环节应渗透素质教育,这就需要
该文的研究工作主要是围绕轴流风机虚拟试验平台的开发和实践这个中心而展开的.运用CAD/CFD方法,以轴流通风机为实践对象,对其进行了全三维的数值模拟及虚拟试验,并在虚拟试
目的:  在前期研究中发现,肿瘤坏死因子-α(TNF-α)可以诱导小鼠黑色素瘤B16细胞凋亡,但是其是否能够诱导B16细胞发生自体吞噬目前尚不明确。因此,在前期研究的基础上,通过相差
该文采用数值模拟的方法对电磁搅拌作用下钢液内的电磁场特性、钢液流动及其传热过程进行分析,并对各种工艺参数和电磁参数对铸坯凝固过程的作用规律进行了深入研究,以指导连