论文部分内容阅读
电子病历(Electronic Medical Record,EMR)是医疗知识高度密集的数据集合,对EMR数据进行分析挖掘能产生有价值的结果。目前,电子病历的二次应用集中在辅助医疗诊断,以提高临床诊断的准确率。由于信息安全和隐私问题,庞大EMR数据集构建存在问题,再加上深度学习的先验知识缺失问题,导致以卷积神经网络(Convolutional Neural Networks,CNN)为代表的深度学习模型在EMR辅助诊断上的准确性还远未能达到实用水平。针对上述挑战性问题,本文研究融合词汇语义的深度学习儿科EMR诊断模型。分别提出词汇语义向量(LSV)和词汇语义预判模态(SDG)两种策略来提升基于CNN的EMR诊断模型性能。总结来,论文的主要研究内容和创新工作如下:1.基于LSV-CNN的EMR诊断模型研究.针对以word2vec为代表的基于大数据驱动的词嵌入向量缺少词法特征和知识表示,难以真正理解EMR词汇语义信息的缺陷,而提出一种融合词汇语义向量和词嵌入向量的EMR诊断模型LSV-CNN(Lexical Semantic Vector Convolutional Neural Network)。该模型将词汇语义向量和word2vec词嵌入向量进行拼接合成,形成新的词向量表达作为深度学习模型的输入,以获得更加丰富的特征表达。实验结果表明,LSV-CNN模型比单纯CNN模型性能更有优势。2.基于SDG-CNN的EMR诊断模型研究.针对以卷积神经网络为代表的基于数据统计特征的模型优化方法缺乏EMR背景知识和语义信息,信息模态单一的缺陷,而提出一种融合词汇语义预判模式的EMR诊断模型SDG-CNN(Semantic Decision Guide Convolutional Neural Network)。该模型在模式识别层融合深度学习决策模式和词汇语义预判模式,旨在利用词汇语义预判模式结果对深度学习模型的训练进行指导,以期在训练中增加背景知识和语义信息,使得模型更贴近人类的思考方式。实验表明,SDGCNN模型比单纯CNN模型的准确率和F1-score有很大程度的提升。3.基于LSV-SDG-CNN的EMR诊断模型研究.为了充分利用LSV和SDG两种方式所提取到的电子病历所蕴含的大量丰富语义信息,提出融合LSV和SDG的EMR诊断模型LSV-SDG-CNN。实验结果证明,LSV-SDG-CNN模型的F值最高达到86.2%。本文有效解决了基于专家的领域知识与基于大数据的深度学习有效融合的问题,探索人工智能研究中人工+智能的耦合模式,对深度学习模型和人工智能的研究路径有积极的意义。