生物医学文本挖掘技术研究及应用

来源 :东南大学 | 被引量 : 0次 | 上传用户:taizi0204
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今生命科学研究的一个显著特点是不断涌现出海量的生物实验数据,绝大多数以论文形式发表在科学期刊上,以文本形式呈现出来。对于生物医学文献进行加工和集中处理,可以从中提炼出更多的生物信息。在生物医学研究中利用这些信息,有助于了解疾病产生的机制,促进疾病诊断技术的发展。以往从科学文献中提炼信息的方式是通过手工分析和注释,将非结构化的文本数据转化为结构化数据,存放在数据库中。生物医学研究人员现在面对的是海量文献,手工的方式显然已不再适用,必须发展新的信息处理技术去自动解析科学文献,快速提炼其中的生物信息,而文本挖掘则是解决问题的最好方法。   本文在分析生物医学文献特性的基础上,发展了将自然语言处理和本体技术结合,面向生物医学文献进行挖掘的方法。首先,采用网络蜘蛛技术将PubMed文献从网站中剥离;接着,用最大熵标注器对文献进行词性标注,将语法分析过程和语义分析过程分开,将语法分析的结果用专业的生物医学知识库进行标定,并通过TF-IDF来补充预测潜在生物学实体;最后将语法分析与语义分析的结果整合起来,进行生物学关联关系的抽取与分析。在此基础上,本文设计开发了基因疾病相关文献挖掘平台。该平台实现了对大量文献的进行快速自动挖掘,将挖掘结果以简洁的可视化形式呈现给用户,使用户能快速获得文献中的重要信息。通过使用存储过程及后台程序优化,使得挖掘平台的效率提高了32%;实验结果显示,对于生物学实体,平台挖掘的综合测评率为81.1%;在实体关系识别方面,综合测评率达到83.3%。最后,我们利用开发的文献挖掘平台,对孤独症相关文献进行挖掘,挖掘出了大部分的孤独症相关基因,以及与这些基因密切相关的GO注释信息,将挖掘结果以关系查询数据库形式保存,对于深入认识孤独症相关基因及基因功能、阐述基因与疾病之间的关系具有重要意义。
其他文献
随着新课程改革的不断发展和普及,初中美术教学也逐渐受到广大教育者的关注.这也要求美术教师从过去照本宣科转向关注学生的兴趣.美术是初中阶段的重要学科,能够促进学生全面
在初中教学实施新课改以后,老师主要起到一定的指导作用,鼓励学生在化学试验中自己动手做.我们从这个改变中有了一个发现,最开始的教学方式是选择做实验的方式得到探究结果,
随着我国经济的发展,越来越多的少数民族开始学习汉语,汉语言作为我国一门博大精深的通用语言,受到了许多外国人的追捧,要想能够将汉语言植入到藏族学生的心灵深处,需要利用
当代先进的车用柴油发动机都采用电子控制技术,而电控柴油喷射系统是电控柴油机的核心部分。如何获得满足使用要求的系统动态特性,包括其核心部件——电磁控制旁通阀的动态响应
本文着重探讨柴油机与卡车动力性、经济性匹配的基本方法和基本流程,结合工厂实际进行了CA5183厢式车和大柴CA6DE1-24柴油机的经济性匹配.匹配结论:本文系统结合油耗改进,阐
语文教学的过程当中,听说读写这四大部分是重要的组成部分,缺一不可,而小学语文的习作训练和教学就是学生在掌握基本的语言之后,将语文进行外化表达的方式,对学生的语文思维
思维导图是基于脑科学研究下的发展产物,是一种将语言和图像进行整合,同时锻炼人左右脑能力的一种常用教学方式,在初中物理教学中尤为可见.思维导图在初中物理教学中加以应用
初中英语阅读教学是初中阶段的重要内容,加强核心素质的培养不仅有利于践行素质教育,也为初中学生后续的英语学习打下坚实基础.基于此,笔者将就基于核心素养培养的初中英语阅
液化天然气(LNG)是一种清洁能源,我国也已经决定引进。由于LNG汽化过程放出大量冷(火用),有必要对其冷(火用)的利用加以探讨。另外,以燃气轮机为核心的总能系统获得广泛应用,应对
计算机、网络技术的发展,特别是DCS(Distributed Control System)系统的发展,带来了计算机技术的进步和电力行业的高速发展,也带来了电站仿真机的发展和普及,并产生了新一代