论文部分内容阅读
随着国内各大医院信息化建设进程的不断发展,各类临床信息系统为医院积累了丰富的临床数据资源。临床数据中所包含的海量医疗活动信息,不仅是医疗、教学、科研的第一手资料,同时也是对医疗质量、技术水平、管理水平等进行综合评价的依据。想要对临床数据进行分析和总结,首先需要对其中的叙述性医疗文本数据进行处理。传统对叙述性医疗文本数据的分析主要依赖人工处理,医生、科研人员和管理员通过浏览和研读这类医疗文本数据,从中抽取出所需要的信息。但在当前医疗大数据的背景下,呈几何级增长的诊疗数据使得从中获取所需要的信息面临更多的困难。同时,大量的非结构化医疗文本数据也成为医院之间信息共享的障碍。因此,对非结构化临床医疗数据进行结构化处理研究具有极其重要的意义。现有医疗文本数据的结构化处理可以分为以设计规范的病历系统为主的前结构化处理和以利用自然语言处理技术为主的后结构化处理两大类。为充分利用已有的历史临床数据资源,本文结合临床医疗文本数据自身的特点,借助规则提取、文本聚类、统计分析等技术手段,设计并实现了一个完整的医疗文本数据后结构化处理系统,以支持非结构化医疗文本数据的自动化结构数据转换。本文首先以临床文档中病理报告的巨检病理文本数据为例,归纳总结出病理文本数据的层次结构和书写特点,并设计了整体的结构化处理流程。在此基础上,本文设计了临床文档结构化处理系统的总体框架,分别介绍了其三大核心模块:临床文档数据预处理模块、病理样本描述模板提取模块和临床文档即时结构化模块,并对各模块的主要功能和任务进行了详细阐述。然后为解决病理样本描述模板的提取问题,本文建立了一个病理样本名词库,并提出一种基于规则的指标名提取算法,通过词库、词性以及字词在文本片段中的位置等信息综合筛选出病理文本中的指标名。在此基础上,结合自定义的文本相似度计算方法,提出一种基于词典的文本聚类算法,用以初步确定每个病理样本描述模板成员的提取范围。再通过统计参数idf和c-value值的筛选,得到最终的病理样本描述模板。最后,对新录入的临床医疗文本数据,通过套用现有的病理样本描述模板,达到即时结构化的目的。同时,系统提供了反馈优化功能,可以通过修改词库、向待处理库添加数据、修改规则参数甚至修改模板文件来实现对系统的更新优化。此外,本文提出的临床文档结构化处理系统采用b/s架构,使用web技术实现了面向用户的界面操作接口,用户可以方便地通过页面操作对系统进行模板训练和数据结构化处理操作。为验证本文提出的结构化处理方法的可用性,本文在真实数据集上进行测试。实验证明,经过本文提出的结构化处理方法处理,平均每条临床医疗文本数据的结构化正确率为82.8%,对比实验也再次证明了本方法的有效性。