论文部分内容阅读
药物不良反应是指在符合药品的正常用法及用量的情况下,出现的与用药目的无关的有害反应,对它的深入理解对于确保患者健康安全至关重要。由于传统的上市后药物不良反应监控方法存在报告不足、数据不完整以及报告延迟的问题,因此许多潜在有害药物仍然未被标记。随着大量生物医学文本和社交媒体数据的涌现,利用文本挖掘技术从自然语言文本中自动、准确地获取药物不良反应相关信息,将对生物医学领域的研究产生极大的推动作用。近年来,基于神经网络的深度学习方法已被广泛应用于语音、图像和文本处理研究中,并取得了突破性进展。为此,本文围绕基于深度学习方法的文本挖掘关键技术,从药物不良反应检测、药物不良反应提及识别和药物不良反应关系抽取三个任务开展研究,并根据研究方法构建药物不良反应信息抽取系统ADRExtractor。ADRExtractor能够从海量的无结构化文本中找出与药物不良反应相关的文本,进而识别其中的药物不良反应提及,最后抽取出药物与其不良反应之间的对应关系。
对于药物不良反应检测任务,针对在小规模的药物不良反应训练数据上神经网络方法无法充分发挥其优势的问题,提出了一种基于对抗迁移学习的药物不良反应检测方法。该方法将药物不良反应检测问题看作一个文本分类任务,并采用迁移学习思想利用大规模源语料集和小规模目标语料集共同训练共享神经网络模块。另外,在训练过程中,引入对抗学习方法防止不同领域语料中的独有特征进入共享模块并影响分类结果。实验结果表明该方法能够有效捕获源语料集和目标语料集之间的共性特征,从而提升模型在小规模语料集上药物不良反应检测任务的性能。
对于药物不良反应提及识别任务,针对提及边界识别不准的问题,提出一种基于交互图网络的药物不良反应提及识别方法。该方法中通过设计三个单词-短语交互图来直接表示候选短语的边界信息和上下文信息,从而引入词汇知识,并利用图注意力网络对三个交互图进行表示。此外,除了词典中涉及到的药物不良反应提及之外,模型还关注句子中的名词性短语,从而识别出词典外提及,并提升了模型的召回率。实验结果表明,三个单词-短语交互图能够独立地获取不同的信息,并且三个交互图获取的信息之间有效互补。与目前先进方法相比,该方法获得更好的结果,在有效识别出药物不良反应提及的边界,提升提及识别的准确性的同时,通过加入名词性短语使其能够召回更多药物不良反应提及。
对于药物不良反应关系抽取任务,针对长度过长、实体过多的复杂句式,提出一种基于最短依存路径的神经网络方法。除了原始句子序列之外,该方法引入最短依存路径信息和依存关系类型信息,能够更准确的捕捉实体之间的句法信息。实验结果表明该方法能够有效提升句子级别关系抽取性能,尤其是训练实例数目有限的关系类型。另一方面,针对文档级别关系抽取问题提出一种基于序列标注的文档级别关系抽取方法。不同于传统分类方法,该方法将文档级别关系抽取问题看作一个序列标注任务,以摘要为单位进行输入,并学习同一药物的不同不良反应之间的语义表达,从而同时抽取句内和句间的药物致病关系。实验结果表明,该方法能够准确地抽取出文档级别关系,尤其是句间关系。
最终,结合三个研究任务所用到的方法,构建了一个药物不良反应信息抽取系统,ADRExtractor。该系统能够从输入的自然语言文本中识别出药物不良反应提及以及药物和不良反应之间的对应关系,并将实体及其关系进行可视化输出。
对于药物不良反应检测任务,针对在小规模的药物不良反应训练数据上神经网络方法无法充分发挥其优势的问题,提出了一种基于对抗迁移学习的药物不良反应检测方法。该方法将药物不良反应检测问题看作一个文本分类任务,并采用迁移学习思想利用大规模源语料集和小规模目标语料集共同训练共享神经网络模块。另外,在训练过程中,引入对抗学习方法防止不同领域语料中的独有特征进入共享模块并影响分类结果。实验结果表明该方法能够有效捕获源语料集和目标语料集之间的共性特征,从而提升模型在小规模语料集上药物不良反应检测任务的性能。
对于药物不良反应提及识别任务,针对提及边界识别不准的问题,提出一种基于交互图网络的药物不良反应提及识别方法。该方法中通过设计三个单词-短语交互图来直接表示候选短语的边界信息和上下文信息,从而引入词汇知识,并利用图注意力网络对三个交互图进行表示。此外,除了词典中涉及到的药物不良反应提及之外,模型还关注句子中的名词性短语,从而识别出词典外提及,并提升了模型的召回率。实验结果表明,三个单词-短语交互图能够独立地获取不同的信息,并且三个交互图获取的信息之间有效互补。与目前先进方法相比,该方法获得更好的结果,在有效识别出药物不良反应提及的边界,提升提及识别的准确性的同时,通过加入名词性短语使其能够召回更多药物不良反应提及。
对于药物不良反应关系抽取任务,针对长度过长、实体过多的复杂句式,提出一种基于最短依存路径的神经网络方法。除了原始句子序列之外,该方法引入最短依存路径信息和依存关系类型信息,能够更准确的捕捉实体之间的句法信息。实验结果表明该方法能够有效提升句子级别关系抽取性能,尤其是训练实例数目有限的关系类型。另一方面,针对文档级别关系抽取问题提出一种基于序列标注的文档级别关系抽取方法。不同于传统分类方法,该方法将文档级别关系抽取问题看作一个序列标注任务,以摘要为单位进行输入,并学习同一药物的不同不良反应之间的语义表达,从而同时抽取句内和句间的药物致病关系。实验结果表明,该方法能够准确地抽取出文档级别关系,尤其是句间关系。
最终,结合三个研究任务所用到的方法,构建了一个药物不良反应信息抽取系统,ADRExtractor。该系统能够从输入的自然语言文本中识别出药物不良反应提及以及药物和不良反应之间的对应关系,并将实体及其关系进行可视化输出。