论文部分内容阅读
随着国内医疗领域信息化的日渐完善,积累的电子病历数据越来越多。这些海量的数据不仅拥有巨大的商业价值也拥有巨大的科研价值。然而,这些数据并不是结构化的文本。有用的信息分布在杂乱的数据中,不能被快速地、有效地利用起来。因此,对中文电子病历的智能分析和使用显得非常重要,其不仅能创造巨大的价值,也可以更快地加速医疗领域的发展。基于此,本课题对中文电子病历文本中的命名实体识别任务进行了研究。命名实体识别作为信息抽取的基础工作,旨在识别出病历文本中拥有最基本语义的实体单元,为后续的其他信息抽取任务提供支持。本课题在通用领域命名实体识别的基础上,针对医疗电子文本的特点提出了相应的改进方案,并据此设计和实现了一个完整的中文电子病历命名实体识别系统。主要工作包含以下几个部分:1)收集和标注了一批中文电子病历命名实体的数据。由于国内的相关研究起步比较晚,没有公开的、有影响力的数据集以供研究使用。为数不多的个人研究中也没有将自己的数据集进行公开。本课题在研究初期通过收集病历文本和相关实体词典进行了数据标注工作。2)设计并实现了中文电子病历命名实体识别系统。首先设计并实现了完整的命名实体识别系统,为进一步的分析利用电子病历提供了基础;然后基于现有文献重点设计了命名实体算法,实现了附加丰富词特征的循环神经网络和条件随机场联合模型。该模型通过再拆分中文分词结果的方式设计细粒度的词向量作为输入,减少歧义分词对命名实体识别的影响;根据中文电子病历实体的特点,本文设计了词性特征、词典特征等特征作为神经网络自动学习特征表示的补充,提高了结构复杂的长实体的识别效果。3)设计并实现了距离敏感的等长Seq2Seq模型。本文通过约束Seq2Seq模型为等长结构,将其迁移应用到命名实体识别这类序列标注任务;结合中文病历文本的语言特性,本文提出了基于距离修饰的改进注意力机制,并取得成效。另外,本文提出的改进模型在全国知识图谱与语义计算大会2017年发布的电子病历命名实体识别评测任务上取得了良好的效果。