基于递归神经网络的生物医学命名实体识别

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:macrosoft
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物医学领域中的诸多信息抽取任务,如关系抽取、文本分类、指代消解以及事件抽取等,往往需要预先识别出文本中表示指定类型的实体名称。目前的命名实体识别方法需要丰富的领域专家知识,抽取大量人工特征。为了降低这些人工设计耗费的代价,本文基于预训练的词向量和递归神经网络,提出简单有效的生物命名实体识别方法;并对神经网络进行一系列扩展和改进,提高对实体的识别性能以及在不同语料集上的适应性。首先,在传统递归神经网络(RNN)的基础上,对隐层和输出层同时采用递归计算,使隐藏层记录前文的历史信息;而输出层可以建立起标记之间潜在的依赖关系。同时,为了弥补在对句子划分子序列时导致的上下文信息缺失,利用布朗聚类算法和狄利克雷(LDA)算法构建特征层模式化范围更广的上下文语义信息。最后,组合两个方向相反的单向RNN进行生物医学文本中的命名实体识别,在Biocreative Ⅱ GM语料上的F-值达到了83.62%。其次,为了进一步提高命名实体识别的效果,克服RNN在处理过长句子时存在的梯度弥散问题,采用长短时记忆(LSTM)网络结构;并在此基础上,构建了双向LSTM(BLSTM)递归神经网络。另外微调词向量的过程会导致预训词向量信息的丢失,本文提出采用两套不同的词向量扩展LSTM结构单元;并根据两套词向量差值计算出句子语义向量表示,从而构建出融入句子向量和双向词向量的BLSTM (ST-BLSTM)递归神经网络。在Biocreative Ⅱ GM语料上,本文的方法达到了88.61%的F-值,比采用词典与分类器组合以及后处理的评测第一名系统提高了1.40%。综上,本文主要采用了两种不同的递归神经网络进行命名实体识别,避免了抽取人工特征时的代价。同时,提出的ST-BLSTM递归神经网络具有更好的识别性能和适应性:与传统的RNN相比,它在Biocreative Ⅱ GM语料上的F-值提高了4.99%;而与采用丰富人工特征的基于浅层机器学习方法的系统相比,F-值提高了1.33%。
其他文献
邓小平同志是我国社会主义改革开放和现代化建设的总设计师,也是建设有中国特色社会主义理论的创立者。本文探讨了“走自己的路,建设有中国特色社会主义”这一基本口号的形成
中专物理课程既作为基础专业课程,又要适应当前教学改革的形势,为满足该专业部分学生进一步深造学习的需要,为完成双重教学任务,必须从教学方面进行考虑,本文对 物理教学的策略进
培育大学生的法治素养,是高校坚持立德树人和全面推进依法治国方略的重要环节。当前,学界在大学生法治素养的研究方面取得了丰硕成果。但是,在大学生法治素养培育研究中也存
介绍了开放式计算机实验室的作用,阐述了开放式计算机实验室的管理结构模型和维护管理技术.
分别以农业产值和农业生产造成的灰水足迹表征农业经济发展和农业水环境污染,使用计量模型分析湖南省1987—2013年间农业经济与水环境污染的关系,并在IPAT模型下探究该省农业
1999年度绍兴文理学院田径运动会计分方法进行了改进——增设了参赛成绩分(以下简称新方法).弥补了过去仅设名次分的不足之处.具体表现在:报名与参赛率比往年提高,竞争外延扩大,项
<正> (一)居民消费的畸形集中指个人消费在结构、时间上过于集中、单一,从而影响了社会总供给与总需求在结构、总量上的平衡,同时造成居民的消费质量不高。在目前,居民消费的
期刊