论文部分内容阅读
由于我国各级医院信息化建设工程的蓬勃发展,当前实际应用中的各种临床信息系统为各大医院积累了极为丰富的临床数据资源,这些数据资源可包括图像和文本两类。然而,在医疗数据呈几何增长的背景下,通过传统的方式提取文本中的关键信息变得异常困难,且大量非结构化数据也成为医院之间信息共享的障碍。综上,传统的基于人工提取关键信息的方式已经无法适应大数据时代下海量数据和非结构化数据的研究。由此可见,对非结构化医疗文本数据资料进行结构化处理操作的研究具有极为重要深远的意义。本文研究侧重于临床文本数据中的甲状腺病史,并以上海某三甲医院近十年的甲状腺病史为数据基础开展研究工作,提出并实现了一套完整的基于深度学习的结构化处理算法,本文的主要工作如下。1)在数据预处理过程中,本文针对甲状腺病史文本数据中涉及大量医学专业知识无法准确分词的问题,提出一种可迭代的专业词库构建方法,用来指导分词,提高分词准确度。2)在结构化处理过程中,本文针对传统的基于词典或基于语义的信息抽取方法无法兼顾泛化性和准确性的问题,结合实体识别和词库匹配算法,提出一种集成的信息抽取方法,在不同的病史内容上使用不同的信息抽取算法。3)在结构化存储过程中,本文针对传统的结构化表示方法无法为知识的存储、分析、检索提供便捷支持的问题,基于现有数据归纳总结出甲状腺病史文本数据的层次结构和特点,并进行该领域的知识本体设计。4)在甲状腺病史结构化系统实现过程中,本文对用户的实际需求进行分析,结合需求分析进行系统框架设计,结合系统的具体实现方式,对系统的各功能模块进行了界面展示和说明。5)在实验结果分析过程中,本文通过精确度P,召回率R和F1值对实验结果进行展示,并设计对比实验验证本文所提出的结构化方法的必要性与有效性。综上,本文使用上海某三甲医院的甲状腺病史数据作为实验数据,提出了一种基于深度学习的结构化方法,该方法可以对非结构化甲状腺病史数据进行结构化处理,并将结构化结果以RDF进行存储。实验证明,该方法可以达到预期目标,为后续的医疗大数据研究提供数据支持。在实现该算法的基础上,设计并实现了甲状腺病史结构化系统,并通过设计对比实验,验证本文所提结构化方法的有效性。