论文部分内容阅读
近年来,人们对医学研究不断进行深入挖掘,于此同时,医院的就诊人数也在不断增加,产生了大批量的医疗信息。利用自然语言处理技术处理电子病历数据是医疗领域研究的重要趋势。对信息内容的抽取、对信息的检索以及建立问答系统等技术全都需要命名实体识别技术给予支持。因此,为了解决医学中病历文本中的命名实体识别的识别效率不高、性能不够优秀等问题,本文旨在研究设计一个性能更加优化的识别算法,并基于此算法开发实现一个能够识别病历文本中的疾病名称、临床症状、治疗手段等命名实体的信息系统。本文对命名实体识别的研究背景和发展概况进行了深入调研,并在此基础上对三种常用的命名实体识别方法进行研究学习,分析三种算法的优缺点。通过研究分析发现,基于规则的方法主要是通过专家建立各种规则,并基于此进行命名实体识别。基于规则的方法需要专业领域的专家根据文本特点定制规则,对参与人员的专业要求比较高,而且耗费人力和时间,同时可移植性和适应性方面都比较差。基于词典的方法主要通过词典与字词序列进行匹配识别,具有很高的识别准确率,但是对词典的质量有很高的要求,难以识别出词典中不存在的未登录词。条件随机场模型(Conditional Random Fields,CRFs)具有最大熵算法的独立性强的特点,又具有隐马尔科夫模型的识别性能高的特点,可以有效地避免出现最大熵模型中的标记偏置和隐马尔科夫模型识别复杂命名实体难度大的问题,具有良好的识别性能,但是它受限于训练集的规模和特征的选取。本文结合词典和条件随机场模型的特点,提出基于词典和条件随机场模型相结合的混合模型。一方面利用基于词典的方法对训练语料进行标记处理,并将得到的结果作为CRF模型的训练语料,这样旨在人工标注数据较少的情况下,仍然可以对CRF模型进行多足够的训练,另一方面是将词典以特征的方式引入到条件随机场的学习模型中。本文设计实现了四组实验,经过四组实验对比分析发现,在条件随机场模型中加入实体词典可以有效地提高模型的识别效率,改善命名实体识别系统的性能。同时实验证明了本文提出的混合模型具有良好的识别效率。另外,通过调查发现,目前学者对于电子病历命名实体识别学习研究还侧重在算法领域,专门用于识别电子病历实体的信息系统非常少,主要是一些软件包的形式,难以直接使用。基于这种情况,本文设计实现了一个界面友好的中文电子病历命名实体识别系统,系统使用Java语言设计实现。系统以本文提出的混合模型为核心算法进行命名实体识别。经过单元测试和集成测试发现,系统中的词典管理功能和命名实体识别功能都达到的预期要求,系统实现良好。