论文部分内容阅读
自2015年起,每年二月的第二个星期一是世界癫痫日。在中国,据最新流行病学显示,癫痫病已成为仅次于头痛病的第二大神经科常见病。随着医院信息系统的推广,生物高通量技术的持续猛进,人工智能与医学相结合已是大势所趋。如何有效地组织和利用癫痫患者的电子病历,快速且准确地从这些海量文本资料中获取有效信息并发现新知识,将极大推动医学研究进步和取得重大突破。本研究将癫痫电子病历与知识图谱相结合,对知识图谱构建过程中的命名实体识别和关系抽取进行了研究,并基于Neo4j实现癫痫医学知识图谱构建与可视化展示,主要工作如下:1.提出CNN-Bi LSTM-CRF模型对癫痫患者的电子病历进行命名实体识别。本研究详细分析了癫痫电子病历的结构和语言特点,将命名实体识别作为序列标注的一种,构建了癫痫电子病历语料库。在BiLSTM-CRF基准模型的基础上,引入CNN对文本向量化的句子矩阵进行局部特征提取,捕捉到多个连续词之间的特征,在同一类特征中共享权重,在训练过程中学到抽象的空间特征。通过对比实验,结果表明本研究提出的模型在命名实体识别上优于其他基准模型。2.提出BiGRU-ATT模型对癫痫患者的电子病历中的医学实体进行关系抽取。本研究对癫痫电子病历中的医学实体关系进行分析,并在借鉴已有研究的基础上,定义其中的7种医学关系,构建了关系抽取语料库。在BiGRU模型基础上,引入自注意力机制关注分类任务中关键的语义信息,通过每个字与序列中每个字的计算,挖掘字词之间潜在的联系,提升模型分类能力。对比实验结果表明,本研究提出的模型在关系抽取任务中能取得更好的效果。3.实现了癫痫医学知识图谱的构建和可视化展示。本研究将识别出的5种医学实体和7种医学关系生成结构化的文件,导入Neo4j图数据库,利用图数据库强大的存储、检索和处理能力,实现了知识图谱的数据可视化。本研究针对癫痫患者的电子病历进行了综合分析,并以此作为数据源,进行医学实体识别和关系抽取,实现了基于Neo4j癫痫医学知识图谱的可视化。