论文部分内容阅读
随着信息化建设的迅速发展,数据为王的大数据智能时代为各行各业带来了新的机遇和挑战。近年来,医疗大数据作为新的焦点领域,得到了各界的广泛关注。如今,每天到医院进行就诊的患者不计其数,在就诊中便产生了数以百计的医疗数据。病人的医疗记录是医生通过信息系统手动录入的,而其中的内容则大多是非结构化数据。以这种医生较为熟悉的方式来描述诊断与检查结果,能够让医生在信息录入时更加迅速、准确、方便。所以目前的医疗数据文档,尤其是症状描述部分,大多是以医生的口头语言进行描述的非结构化数据。因此,这些数据存在异构、分布式、碎片化、不规范等特点,有时还会存在数据缺失的现象,不利于解读和处理。由于医疗数据是以非结构化的形式存储的,因此无法直接通过计算机直接处理和分析,不仅效率低下,分析质量也无法保证。目前的信息抽取研究中使用的方法的可扩展性都较差,具有一些局限性,故自动化程度不高。为了能够有效地通过现有的分析方法对医学病案数据进行分析和信息挖掘,从而更好地利用医学病案数据,如何有效地将医学数据作结构化处理就成为了一个值得研究、探索的问题。在此情况下,基于相似病案的检索系统项目应运而生。项目旨在建立一个通用、准确、便捷、易操作、高效且能够处理异构医疗数据的病案检索系统。系统在由各病案组成的医疗数据平台上,通过病情查找相似病案,用一个病案整体作为输入,相似病案做出输出进行辅助诊断。而本文的工作,则是病案检索系统中的数据处理阶段。本文创新点在于改进已有的自然语言处理中的歧义切分校正方法,将算法对医学领域进行优化;再结合LOINC数据库与知识图谱等相关工具与技术,将病案中的医疗数据进行处理,为项目的下一步工作提供数据支持。本文首先通过改进后的术语抽取算法,对数据中非结构化的医学命名实体进行识别;然后通过语义分析进行标签提取与向量构建,并参考LOINC数据库,将非结构化的数据结构化,让数据中的描述更为准确、统一;然后通过相关性分析,对标签进行筛选与量化操作;最后通过结合知识图谱,构建出可视化的病人病例画像,通过内容分析、可视化的方式显示知识结构以及其相互关系,一定程度上解决数据缺失的问题。