论文部分内容阅读
生物医学文献是学术成果展示和学术交流最主要的方式。目前,海量的生物医学文献已经成为一座巨大的知识宝库,是最重要的生物医学领域资源。生物医学实体关系抽取是将自然语言处理、机器学习、深度学习等技术应用于生物医学文献,高效、准确地抽取出生物医学实体(基因、疾病、药物等等)之间存在的某种关联。生物医学实体关系抽取及其相关研究能够辅助生物医学研究者的研究工作,对于生命科学各领域的研究具有广泛的应用价值。此外,生物医学实体识别作为生物医学实体关系抽取的基础,直接影响后续关系抽取工作。本文对生物医学实体识别、生物医学实体间关系抽取和生物医学实体关系三元组抽取进行了相关研究,主要研究内容包括如下三个方面:对于生物医学实体识别,提出了多标签卷积神经网络(Multiple Label Convolutional Neural Network,ML-CNN)方法。该方法把命名实体识别任务抽象成词级别的分类问题,将要预测的词和该词周围若干词作为输入,并提出了适合词级别分类框架的多标签机制,获取相邻输出标签之间的依赖关系,简化了主流的深度学习方法获取标签之间依赖关系过程。与经典的条件随机场方法相比,ML-CNN方法几乎不需要特征工程,具有较强的泛化能力。该方法在疾病名识别(NCBI和CDR语料)和化学物名识别(CHEMDNER语料)上取得了较好的性能。对于生物医学实体关系抽取,提出了句法卷积神经网络(Syntax Convolutional Neural Network,SCNN)模型。该方法通过利用句法结构上下文信息训练词向量,将句法信息引入到模型中,得到了包含句法信息的样本表示。此外,SCNN方法先利用Auto-encoder对One-hot形式特征向量进行编码得到对应的分布式表示形式,然后再与其它分布式特征融合,使两种形式特征更好地融合在一起。SCNN方法在DDIExtraction2013评测语料上进行实验,取得了较好的性能。对于生物医学实体关系三元组抽取问题,提出了一种混合的关系三元组抽取方法。该方法将关系三元组抽取分成三个步骤:(1)利用ML-CNN方从生物医学文献中识别出生物医学实体。(2)对于识别出的生物医学实体,利用SCNN方法抽取出存在某种关系的实体对。(3)结合句法模板和词典匹配方法找出表示两个实体间关系类型的关系词,形成实体关系三元组——(实体1,关系词,实体2)。当前主流的关系三元组抽取方法都是基于规则的方法,而基于规则的方法召回率普遍较低。该方法通过有效地结合机器学习方法和规则方法,提升了关系三元组抽取的召回率,在关系类型比较丰富的蛋白质-蛋白质交互关系抽取语料(AImed)上进行实验,取得了较好的性能。