论文部分内容阅读
随着人工智能热潮的掀起,人工智能在医疗健康领域的应用场景也越来越丰富,人工智能技术影响着医疗行业的发展。在一些检查中,医生双手无法离开检查设备,亟需引入智能化的语音交互医疗产品来协助工作,提升工作效率。在智能化语音助手中语义理解引擎起着核心作用,医疗语义理解的含义是帮助语音助手进行理解医生的意图、提取医生说话内容的关键信息,并对获取的文本信息进行结构化处理,最终生成电子病历。蓬勃发展的背后,人工智能在医疗领域的应用和推广也面临着诸多问题和挑战。目前针对中文自然语言的医疗文本结构化处理方法采用的方案是存在较多的弊端:灵活性不足、无法实现各种业务的定制化、容易丢失重要病历信息等等。针对以上存在的问题,本文主要从以下几个方面开展工作:本文基于科大讯飞有限公司智慧医疗内核部门“面向医疗语义理解引擎”项目,对语音转写文本进行结构化处理的研究。本文通过对语音转写文本数据以及需求进行深入的分析,给出了一个“规则+命名实体识别+知识库+分类”一体化的医疗文本结构化处理方案。首先,针对目前传统信息提取技术应用于本课题中效果较差的问题,本文给出了一种基于规则和命名实体识别融合的信息抽取处理方法,该方法进行NLP(Natural Language Processing,自然语言处理)文法解析和命名实体识别的提取,并保留提取信息的并集。其次,针对传统医疗文本结构化中知识图谱的应用只是实体间语义的简单拼接,结构化效果较差的问题,因此本文引入知识图谱校验思路。其方法是在医疗知识图谱构建完成后,对结构化系统中提取的语义信息进行合法性校验,包括值类型、值范围、以及语义关系等,以提高文本结构化的正确率。然后,为防止文本中有用信息丢失,本文给出了一种基于CNN(Convolutional Neural Networks,卷积神经网络)分类模型对文本进行二分类的方法,并对其中CNN模型结构进行了改良。经过实验对比分析,最后选用jieba分词和CNN组合的方案对文本进行二分类。最后,通过对前面三个主要部分的研究,设计和实现了面向语义理解的结构化处理方案。通过真实的现场语音转写文本数据验证改进后的系统在结构化效果以及分类效果有较大提升。