论文部分内容阅读
随着医学信息技术的快速发展,非结构化的医学文本信息日益丰富。从临床电子病历、医学文献等医学文本中提取出有价值的信息是推进医学智能化研究的重要基础。信息抽取能够对非结构化文本中的信息进行分析、识别和分类,其中命名实体识别和关系抽取是信息抽取的两个重要方向。虽然已有不少研究者将信息抽取技术应用于医学领域,但由于医学语言表达的多样性、关系描述的隐含性和复杂性以及医学信息抽取相关语料库的稀缺,导致医学领域的命名实体识别与关系抽取任务难以达到理想的效果。根据不同的研究对象,本文主要做了以下工作:(1)针对中文临床电子病历的数据规模小和现有网络泛化能力不强的特点,提出一种基于跨领域迁移的医学命名实体识别网络(T-Bi LSTM-CRF)。该模型首先利用非医学领域的数据集对源网络进行预训练,再使用临床医学数据集对目标网络的参数进行调优。在源网络训练过程中,网络参数得到了初步的训练,并初始化目标网络。目标网络通过源网络的有效引导,加速了收敛过程,并进一步增强模型的学习能力。实验结果表明,该方法对中文电子病历中的医学实体具有较好的识别效果,在CCKS 2018评测数据集上的严格F1值达到85.43%。(2)为了充分挖掘中文医学文本中实体之间隐含的语义关联,提出一种融合注意力机制的BERT-Att-CNN模型。首先使用BERT的双向Transformer对输入的医学文本序列进行编码,获得更深层次的语言特征表示;其次,设计了融合注意力机制的CNN有选择性的抽取特征;最后,选用标签平滑交叉熵损失函数来优化模型训练,缓解类别标签不均衡带来的负面影响。针对医学领域的关系抽取数据集欠缺的问题,本文对医学教材、临床路径等医学文本进行人工规范化标注,构建了中文医学数据集Chinese Medical 2019。实验结果表明,BERT-Att-CNN模型与其他方法相比具有更好的性能,在SKE 2019通用数据集和自建的Chinese Medical 2019数据集上F1值分别达到77.10%和48.47%。