论文部分内容阅读
生物医学文献是展示和传播生物医学知识的有效途径,如何从爆炸性增长的文献数据中快速准确且自动地定位人们所需要的信息,成为了各领域精英重点关注的问题之一。而生物医学信息抽取技术的主要目的就是从非结构化的生物学和医学文本数据中自动解锁结构化语义信息。其中,生物医学事件抽取旨在检测细粒度的实体之间的多元语义关系,并将事件的详细信息以结构化形式展示给人们。本文以生物医学事件抽取作为研究的关键问题,将其分为两个子问题进行研究:触发词识别和元素检测。传统的生物医学事件触发词识别方法基于人工设计特征、构建特征向量,所利用的信息有限。因此,为了避免人工设计特征的复杂性,提升系统的泛化能力,本文利用神经网络自动从单词的语义空间中学习候选实例的特征表示,提出两种触发词识别方法。提出基于卷积神经网络的触发词分类方法,利用卷积神经网络对局部特征的学习能力来识别触发词;提出基于双向长短时记忆神经网络和条件随机场的触发词标记方法,利用长短时记忆神经网络对上下文信息的有效融合与学习,并充分发挥条件随机场考虑全局信息的优点,实现事件触发词的标记。使用双向长短时记忆神经网络和Attention机制相结合的方法进行生物医学事件元素检测,抽取上下文特征、距离特征和候选对属性特征,并从构建的语义空间映射词向量获取语义特征,使用双向长短时记忆神经网络对候选对实例特征之间的时序信息进行建模与学习。同时,进一步引入Attention机制来关注候选对实例中的重要特征,赋予它们更大的注意力概率,并根据所学习到的权重值对模型输出向量进行加权求和,作为候选对实例的最终特征向量表示,进行元素类型的识别。本文在MLEE语料集上实验,利用未标注语料构建语义空间并从中抽取单词的语义特征,使用神经网络构建生物医学事件抽取模型。实验结果表明,本文提出的基于语义空间和神经网络的生物医学事件抽取模型是有效的。