论文部分内容阅读
网络诊断作为一种新兴的诊疗手段正逐渐走入人们的视野,只要将自己的症状通过文字告知在线医生,就能得到免费诊断。越来越多的患者开始足不出户网上寻医,但有限的在线医生很难满足庞大的患者需求。本文主要采用基于模式匹配的信息抽取方法,以网络上患者对自身消化问题的表述文本为例,研究如何从中快速获取关键的诊疗信息,建立相应的信息抽取系统以推动网络诊断的自动化,缓解医疗资源的不足。研究包含三个主要部分:(1)网络文本的容错处理:提出一种容错处理算法以更正原始文本中的输入错误。在对常见输入错误进行分类的基础上,将这些错误的特征归为两类:全局特征和局部特征。并结合语料库方法,引入三个参数来刻画并识别这些特征:相似度函数值和编辑距离、多元语法概率差值、互信息差值。在测试集文本上运行后,该算法体现了较好的性能。(2)中医知识库建立:提出一种中医临床信息的知识表示方法,建立知识库以指导信息抽取。根据中医临床信息的特点和相关教材的表述,采用框架理论作为指导,建立了28种常见消化道中医证候的临床信息知识库。(3)人工模式提取和扩展:利用构式研究的语料库方法对文本中较为典型的模式进行人工提取,借助《同义词词林扩展版》进行模式扩展。用这些模式来匹配测试集中的文本,并从文本中抽取必要的信息,在一些规则的辅助下与知识库中的信息进行比对,由系统作出相应的诊断结论。本研究共获得模式567条,在测试集上利用这些模式获得了较好的信息抽取性能,系统对多数中医证候做出了正确的判断。该研究在语言学一些相关理论方法的指导下,以语料库为主要基础建立了有效的信息抽取系统,推动了网络诊断的自动化,并讨论了影响系统性能的重要因素,对未来的工作提出了展望。