论文部分内容阅读
随着互联网技术的发展和普及,很多患者选择通过在线医疗网站,向医生咨询医疗健康相关的问题。利用信息抽取技术从患者的在线医疗咨询文本中自动地获取重要信息,然后从专业的医疗知识库中搜索答案,自动地为患者提供专业的医疗答复,这种方法能够有效地减轻医生的工作量。其中,命名实体识别是进行信息抽取工作的关键步骤。因此对在线医疗咨询文本进行命名实体识别的研究具有重要的现实意义。本文致力于基于深度学习的在线医疗咨询文本命名实体识别的研究,通过对相关研究现状的调研,发现当前存在以下问题:1)目前针对在线医疗咨询文本进行命名实体识别的研究,还处于空白阶段。2)在以字粒度进行实体标注的情况下,需要研究如何在模型中有效地融合字在句子中的局部特征和全局特征。3)目前鲜有同时使用双向语言模型和Mask语言模型的预训练特征,提高命名实体识别效果的工作。4)目前鲜有将语言模型预训练和多任务学习两种方法联合起来,提高命名实体识别效果的工作。针对当前存在的问题,本文进行了以下工作:1)构建了高质量的在线医疗咨询文本命名实体识别标注数据集,填补了当前针对该领域研究的空白。2)根据在线医疗咨询文本的特点,设计了MQNer模型。MQNer较好的学习到字在句子中的局部特征和全局特征,实验表明针对在线医疗咨询文本命名实体识别任务,MQNer能够取得良好的识别效果。3)在MQNer的基础上,创新性地设计了LM_MQNer模型。LM_MQNer同时使用双向语言模型和Mask语言模型对在线医疗咨询无标注文本进行预训练,然后将两种语言模型的预训练特征结合到模型中,从不同的角度获取到了无标注文本中蕴含的语法和语义信息。实验表明LM_MQNer有效地提高了命名实体识别的效果。4)在LM_MQNer的基础上,创新性地设计了基于对抗机制的多任务模型AMTL_LM_MQNer。AMTL_LM_MQNer不仅使用了语言模型预训练的方法,还使用了联合电子病历文本命名实体识别任务进行对抗多任务学习的方法。实验表明相比较于LM_MQNer,AMTL_LM_MQNer进一步提升了命名实体识别的效果。