Enhanced Identifying Gene Names from Biomedical Literature with Conditional Random Fields

来源 :中国电子科技 | 被引量 : 0次 | 上传用户:tzwizj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Identifying gene names is an attractive research area of biology computing. However, accurate extraction of gene names is a challenging task with the lack of conventions for describing gene names. We devise a systematical architecture and apply the model using conditional random fields (CRFs) for extracting gene names from Medline. In order to improve the performance, biomedical ontology features are inserted into the model and post processing including boundary adjusting and word filter is presented to solve name overlapping problem and remove false positive single words. Pure string match method, baseline CRFs, and CRFs with our methods are applied to human gene names and HIV gene names extraction respectively in 1100 abstracts of Medline and their performances are contrasted. Results show that CRFs are robust for unseen gene names. Furthermore, CRFs with our methods outperforms other methods with precision 0.818 and recall 0.812.
其他文献
翻译是一种与社会文化息息相关的跨语际的活动,在次活动中一国语言被另一国语言中与之对等的语言成分所替代.翻译家们在翻译过程中必须考虑到多方面的因素.而在本文中,我们将
根据Swain的输出假设理论,教师应注重引导学生进行可理解性的语言输出.而教师话语在外语课堂中起着至关重要的作用,因为它将直接影响学生的课堂话语输出.本文从I-R-E课堂话语
模因论(memetics)是近年来语用学界新兴的一门理论.文章以模因论为基础,分析模因的概念、特点、类型,模因传播过程和外语习得认知加工过程,着重探讨模因对英语词汇教学的启示
大学英语新教学大纲强调:重视教学模式的改革,坚持以学生为中心,充分调动学生学习的主动性和积极性,使课堂教学生动活泼并提出:大学英语教学目的是使学生能用英语交流信息而
目前,低年级本科生(大学一年级及二年级的学生)在做科研时得到了更多的基金和科研资源方面的支持,但是依然存在参与规模小、缺乏指导、作品的利用度不够等问题.建议开设科研
本文分析了西方海洋农业文明和中国内陆农耕文明的起源,着重阐述了中国传统价值观念,诸如中国的儒、道、释互补的价值观念及传统思维方式对其商业文化传统的影响和制约,重点
大学英语分级教学是因人而异,因材施教,培养学生自主学习能力,促进大学英语教学改革的顺利进行和教学质量全面提升的一种教学方法.自主学习能力是当代大学生应具备的基本能力
熟语包括惯用语,成语,谚语,格言和警句,来源于寓言故事、历史故事、古典文学作品、宗教经典、民间谚语、外来语等,具有形式固定,言简意赅、寓意深刻的特点.只有了解了熟语的
阅读理解能力是大学英语教学中的重点之一.然而,目前大学生英语阅读现状不容乐观,特别是非英语专业学生普遍存在着阅读速度慢,理解能力弱和归纳能力不强.文章对于非英语专业
聚合词是现代汉语中一种独特的词汇现象。本文在前人研究的基础上,通过搜集大量语料及检索大型语料库,对聚合词的分类及其在现代汉语中的用法作了深入分析。并且尝试用现代词