论文部分内容阅读
传统的医疗文本结构化处理方法基本都是医生根据医疗临床经验对医疗文本数据进行人工处理。然而,这种医疗文本结构化处理的方式不但浪费时间和精力,并且结构化处理的准确率无法达到预期的要求。在大数据时代,日益增长的医疗数据给整个医疗行业带来了全新挑战:医院给病人进行诊疗,诊疗过程中会有大量的医疗文本生成。其中,绝大部分的医疗文本数据属于半结构化或非结构化数据。通过将半结构化或非结构化的医疗文本数据转化为计算机能够分析和处理的结构化数据,可在科研应用、临床诊疗、数据共享等方面实现新的突破。医疗文本结构化就是将半结构化或非结构化的医疗文本通过结构化处理转换为结构化数据。目前医疗文本的结构化处理主要分为两个方面:前结构化处理和后结构化处理。前结构化处理主要是通过规范的病例系统进行结构化处理,后结构化处理是通过自然语言处理来对医疗文本进行结构化处理。医疗文本结构化处理的目的就是从医疗文本中自动地提取指标名称和其对应的指标值。为此,本文首先归纳出医疗文本的结构特点和语言特点。根据这些特点,本文提出了基于词向量的医疗文本结构化处理方法。该方法主要有三个核心部分:文本预处理、新词发现和信息抽取。文本预处理需要对数据进行清洗、集成与转换以及规约,使得数据具有一致性,为后面的结构化处理提供准确的数据。新词发现是基于词向量发现医疗文本中的医疗专业术语。使用Google开源词向量工具word2vec对文本进行训练,把文本中的词转化为n维空间词向量;根据词与词之间的内部结合度,再结合信息熵、词频等统计信息,发现新词,构建用户自定义的词库。信息抽取主要负责设计信息抽取规则,提取文本中的关键信息。根据新词发现过程中发现的关键词提取对应的关键信息,并将其组织为结构化数据,完成对医疗文本的结构化处理。本文分别将上述三个部分部署在Spark平台,利用分布式计算,完成对医疗文本的结构化处理。为了检验所提出方法切实可行,随机选取一部分数据作为样本,通过人工抽取的方式对样本数据进行结构化处理。然后与使用本文方法进行结构化处理得到的结果对比,证明本文的结构化处理方法能够达到预期目的。