论文部分内容阅读
生物医学领域中的诸多信息抽取任务,如关系抽取、文本分类、指代消解以及事件抽取等,往往需要预先识别出文本中表示指定类型的实体名称。目前的命名实体识别方法需要丰富的领域专家知识,抽取大量人工特征。为了降低这些人工设计耗费的代价,本文基于预训练的词向量和递归神经网络,提出简单有效的生物命名实体识别方法;并对神经网络进行一系列扩展和改进,提高对实体的识别性能以及在不同语料集上的适应性。首先,在传统递归神经网络(RNN)的基础上,对隐层和输出层同时采用递归计算,使隐藏层记录前文的历史信息;而输出层可以建立起标记之间潜在的依赖关系。同时,为了弥补在对句子划分子序列时导致的上下文信息缺失,利用布朗聚类算法和狄利克雷(LDA)算法构建特征层模式化范围更广的上下文语义信息。最后,组合两个方向相反的单向RNN进行生物医学文本中的命名实体识别,在Biocreative Ⅱ GM语料上的F-值达到了83.62%。其次,为了进一步提高命名实体识别的效果,克服RNN在处理过长句子时存在的梯度弥散问题,采用长短时记忆(LSTM)网络结构;并在此基础上,构建了双向LSTM(BLSTM)递归神经网络。另外微调词向量的过程会导致预训词向量信息的丢失,本文提出采用两套不同的词向量扩展LSTM结构单元;并根据两套词向量差值计算出句子语义向量表示,从而构建出融入句子向量和双向词向量的BLSTM (ST-BLSTM)递归神经网络。在Biocreative Ⅱ GM语料上,本文的方法达到了88.61%的F-值,比采用词典与分类器组合以及后处理的评测第一名系统提高了1.40%。综上,本文主要采用了两种不同的递归神经网络进行命名实体识别,避免了抽取人工特征时的代价。同时,提出的ST-BLSTM递归神经网络具有更好的识别性能和适应性:与传统的RNN相比,它在Biocreative Ⅱ GM语料上的F-值提高了4.99%;而与采用丰富人工特征的基于浅层机器学习方法的系统相比,F-值提高了1.33%。