论文部分内容阅读
数字化医疗和医疗信息化已经成为当前医学领域中的重要研究内容,由此出现的电子病历的研究在近些年得到了普遍的应用和迅速的发展。结构化电子病历应用之前,医院保存了大量的非结构化电子病历数据,这些数据对于科研和临床都有着重要的意义,然而并不便于有效的信息检索,大量医学信息不能被有效的利用,造成了资源的严重浪费。因此,电子病历的信息挖掘研究至关重要,是现代化医疗中的一项重要任务,也是重要的挑战之一。电子病历信息抽取为非结构化电子病历数据的信息挖掘和分析提供了技术支撑。由于我国研究起步较晚,病历中自然语言表达较灵活,以及包含众多的专业术语等特点,进行电子病历的信息抽取研究有一定的难度。信息抽取中基础且重要的过程是命名实体识别,是本文研究的重要内容。基于命名实体识别,对病历中的实体关系抽取技术进行了研究。最后对本文研究内容进行了总结和展望。本文主要研究内容如下:(1)针对电子病历非结构化文本的特点,提出一种多特征融合条件随机场的命名实体识别方法。选取某三甲医院的600份病历作为实验数据,随机选取400份病历作为训练集,剩余200份病历作为测试集。将条件随机场模型特征分为基本特征和高级特征,通过选取不同的特征与特征模板,确定实验参数以及最佳特征组合,最终对电子病历的疾病、症状、手术等实体的识别取得了很好的效果。(2)考虑到目前并没有大型的、公开的、全面的中文电子病历语料库,提出一种半监督的命名实体识别方法,采用Bootstrapping算法,并结合最大熵模型的优点对其进行改进。该方法实现了仅使用少量种子词,通过不断地循环学习,对最大熵模型进行优化,识别电子病历中的命名实体。通过几组对比实验,确定了实验的最优参数,并且通过与命名实体识别的其他几种模型对比结果中,发现此方法有效提高了电子病历命名实体识别的效果。(3)在电子病历命名实体识别的基础上,对疾病、症状、手术之间的关系进行抽取。考虑到中文电子病历文本中的语句结构与描述方式具有相似性,提出基于卷积树核的病历实体关系抽取方法。对病历文本进行预处理,将其转换为句法树的形式并标注,采用“一对一”的方法构建SVM多类分类器,在此基础上分别采用基于子树核和子集树核的方法进行实验。对比实验结果发现基于子集树核的方法对病历实体关系抽取的性能优于子树核。对中文电子病历信息抽取关键技术的研究,为医学信息的挖掘、统计和分析做好了准备工作,同时也为非结构化电子病历向结构化电子病历的转换提供了有效的方法和思路。