论文部分内容阅读
近年来,随着生物医学技术的进步,生物医学领域产生了大量的研究成果,该领域文献呈急剧增长趋势。截止目前,医学文献搜索引擎PubMed引文已经超过三千万,这些文献中蕴含着丰富的生物医学知识。面对如此海量的文献,科研人员通过人工阅读的方式获取有用信息、了解生物医学领域最新研究进展越来越困难。通过文本挖掘从海量文献中自动挖掘出知识是解决这一困境的可行办法,受到了越来越多研究人员的关注。实体关系抽取技术是文本挖掘领域的关键技术。生物医学文献中存在许多命名实体,这些实体包括蛋白质、药物和疾病等类型。这些命名实体之间存在许多关系例如蛋白质和蛋白质之间的交互关系、药物和疾病之间的治疗关系。通过实体关系抽取技术将这些实体关系从文献中挖掘出来对生物学家进行系统生物学研究有重要意义。当前该技术主要有三类方法:共现法、模板匹配方法和机器学习方法。相较于共现方法的低精确率和模板匹配方法的低召回率,机器学习方法由于出色的性能受到研究人员的广泛关注。基于机器学习的关系抽取方法可分为:基于特征工程的方法、基于核函数的方法和基于深度学习的方法。基于特征工程和基于核函数的方法比较依赖于特征设计,因此,近期的研究热点是使用深度学习这种不依赖特征工程的方法来进行实体关系抽取。由于生物医学语料规模比较小,当前大部分基于深度学习的关系抽取研究都基于其他自然语言处理工具,其中依存句法树是最主要的补充特征。这将使实体抽取性能依赖于这些工具的性能。除此之外,这些工具限制了模型的预测速度。循环神经网络由于极强的序列特征学习能力受到了近期工作的青睐。但是,循环神经网络由于难以并行实现,因此预测速度要慢于卷积神经网络。除此之外,循环神经网络训练也比较困难。因此,基于已有工作的这两个问题,本文提出了一种基于残差卷积神经网络的生物医学实体关系抽取模型,该模型基于卷积神经网络实现并且不依赖其他自然语言处理处理工具。相较于直接堆叠多个卷积模块,通过残差结构可以促进深度神经网络的梯度传播,从而使卷积神经网络可以拥有更深的架构。本文模型在多个生物医学实体关系抽取语料库上进行了测试,相较于已有的工作,本文模型取得了令人满意的效果。