论文部分内容阅读
近年来,医院信息系统(HIS)、医学影像系统(PACS)、电子病历(EHR)、实验室信息系统(LIS)和放射信息管理系统(RIS),这一系列医疗系统每时每刻都在产出大量数据,从初始的MB到GB,从TB到PB无限增长,但是对于这些医疗大数据的有效利用问题并没有得到解决。并且对大数据处理过程中的实时性、有效性问题也有很高的要求,传统的分析方法无法应对。临床医学文本报告作为一个关键性的医疗信息载体,为医生诊断与科研提供了强有力的数据支持,但是,采用自然语言编写的医学文本报告基本上是非结构化的,无法直接用于计算机分析和处理。而临床医学文本数据存在较强的专业性,涉及到很多专业的医学知识,在语法上使用领域固定格式,这使信息的抽取面临着极大的难题。在信息抽取中,关键词提取在自然语言处理领域有着大量的应用,如何快速、准确的从文本中抽取关键词已经成为文本处理亟待解决的关键性问题。现有的关键词提取方法有很多,但是并没有针对于医学领域的关键词提取方法。传统的关键词抽取方法用于医学领域的准确率和通用性仍有待提高。为此,本文提出了一种针对临床医学文本数据加以结构化表达的方法,此方法首先通过基于词共现概率的分词矫正方法来获取医学描述语言内的专业的医学术语,再采用生成的专业医学术语库来为新一轮的中文分词操作提供帮助,使分词质量得到显著提升。然后,依存语法树的构建是基于对单句中词之间的语义关系来实现。最后,从语法树中识别和抽取医学文本中的重要指标和对应的指标值,最后得到结构化的键值对数据。本文实验的数据应用了真实的超声文本数据,实验结果显示分词矫正方法能使中文医学文本的分词质量大幅提升,准确率可达97.4%,并在最终的结构化表示中得到84.2%的准确率和87.1%的召回率。本文提出的结构化表示方法能够识别医学文本中的多种依存语法,具有较好的通用性。