论文部分内容阅读
随着人民生活水平的提高以及生活方式的改变,糖尿病的发病率在逐年增加,糖尿病会导致持续高血糖与长期代谢紊乱等问题,从而致使全身组织器官,特别是眼、肾、心血管及神经系统的损害及其功能障碍和衰竭。然而我国基层医生人数不足,专业水平参差不齐,同时糖尿病也分为很多种类,只有正确的认识糖尿病的种类才能够帮助人民群众有效的、有针对性的预防和治疗糖尿病。近年来自然语言处理技术快速发展,可运用此技术从医学文本中抽取医学实体和实体间的关系等知识,使用抽取到的知识可构建医学知识图谱,成功地将无结构化数据转换成结构化数据。医学知识图谱可以辅助医务人员对疾病诊断治疗,同时可更好的向人民普及医学知识,加快推动医学产业发展。当前运用自然语言处理技术构建知识图谱是一个学术研究的热点,同时它也广泛的应用于工业界的各方面。本文运用中文自然语言处理技术从糖尿病医学文献中抽取知识,构建糖尿病知识图谱。这些医学文献中蕴含大量医学信息,对糖尿病的预防、诊断和治疗都有着十分重要的意义。由于这些医学文献无结构化,若利用人工抽取相关知识将会耗费大量的人力物力,如何高效准确地抽取文献中的知识,是本文研究的重点。本文通过对医学知识图谱构建流程的研究,将构建基于中文自然语言处理的糖尿病知识图谱,主要分为命名实体识别、关系抽取及知识图谱构建三大部分。命名实体识别部分,本文提出了BERT-BiLSTM-CRF命名实体识别模型,该模型在传统BiLSTM-CRF模型基础上,融合了BERT字嵌入模型,更好的结合文章上下文,充分考虑了一词多义等问题;关系抽取部分,本文构建了一种新的基于参数共享的关系抽取联合模型,即融合BERT-BiLSTM-CRF和多头选择的联合模型,可同时进行命名实体识别和关系抽取两项子任务,同时在训练过程中两项子任务共享BiLSTM层隐藏状态参数,并将两项子任务的损失函数之和作为最终的损失函数进行优化,增强了两项子任务间的交互性。知识图谱构建部分,构建了基于Neo4j图数据库的糖尿病知识图谱,详细的介绍了Neo4j图数据库和构建知识图谱的过程,并对糖尿病知识图谱进行分析。该知识图谱的成功构建可进一步应用于医药推荐系统,医学辅助诊疗系统等,对糖尿病患者的预防、诊断、治疗及康复管理都有着重要的帮助。