论文部分内容阅读
目的:本研究针对临床文本患者隐私保护问题,构建高质量临床文本去识别方法,在保证数据价值的基础上,最大化保护病人隐私,从而有助于大数据的共享、融合和利用,我们旨在(1)描述中文临床文本中PHI的分布情况,(2)提出一种基于机器学习方法的中文临床文本去识别方法,以及(3)验证高效的机器学习算法在中文临床文本去识别研究中的有效性。 方法:基于从四川省雅安市的一个区域人口健康信息平台中随机抽取的14719条出院小结数据,我们构建了一个条件随机域(Conditional Random Fields,CRF)模型来识别临床文本的PHI,并针对样本中数量较少的PHI类别设计相应的正则表达式来优化综合识别结果。 结果:通过大量的人工标注,本研究构建了带有PHI标记的中文临床文本语料库,临床文本的描述性统计结果显示,在中文临床文本中PHI分布的广泛性和多样性。去识别模型评估结果显示,为分词工具添加临床概念外部词典提高了去识别模型的表现;在词汇特征基础上加入字典特征后,基于CRF的去标识模型的整体性能得到了显著改善,F值从97.73%增长到98.73%;在CRF模型基础上结合后处理规则后F值增加到0.9878。 结论:随着电子病历在卫生保健机构的迅速普及,迫切需要能够分析中文临床文本中患者特定信息的工具。本研究中CRF算法在临床文本去识别中的良好表现,显示出了该模型应用于中文临床文本去识别的潜力,为中文临床文本去识别研究提供了一个高效的解决方案。