论文部分内容阅读
面向文本的知识获取与表示属于自然语言处理和知识工程的交叉课题,是模拟人类认知、逻辑推理、时序预测等智能化能力的基础性研究。在统计自然语言处理研究中,常见的知识表示有基于人类语言的符号化形式,例如由实体和关系组成的三元组知识、更富语义表达的一阶或高阶逻辑知识等。此类知识形式具备直观简洁、易于理解的优势,结合统计学习模型可以有效地应用于一些主流的语言处理任务。另一种知识形式采用分布式表示,通常以连续、稠密、低维向量刻画知识的语义信息和知识之间的关联性,例如以Trans E为代表的实体嵌入方法、以GNN(graph neural network)为代表的图嵌入方法等。这种表示学习方法可以通过大规模语料获得更为抽象的特征性信息,高效地适用于大部分统计机器学习算法。近年来,以三元组为结构单元的知识图谱在智能搜索、问答系统以及信息推荐等任务上取得了突出成果,不仅为统计关系学习(statistical relational learning)提供准确、可追踪、可解释的知识数据,而且能够有效支持面向噪音数据和多关系型数据的不确定性推理。鉴于开放域知识获取难度大、维护成本高等问题,目前的知识图谱构建及相关研究多以任务为导向,将知识类型和数据源限定于某个特定领域,往往可以利用有限的资源服务于各类决策支持系统。本研究以医学领域为课题背景,研究面向医学文本的知识获取与表示、概率推理和时序预测的关键技术,主要内容包括以下五个方面:第一部分为面向医学文本的知识图谱构建。针对医学知识图谱构建中存在的分类体系不健全和语料匮乏的问题,本文结合电子病历和临床诊疗指南的文本特点,制定了医学概念和医学概念关系的分类体系规范,并在该体系的指导下以人工标注方式构建了以实体为节点、实体关系为边的医学知识图谱。通过复杂网络分析挖掘该图谱的结构特性,验证其蕴含的复杂知识体系可以为疾病推理和健康预测等研究提供数据支持。第二部分为基于医学知识表示的疾病诊断模型。鉴于符号化知识所蕴含的语义信息难以被机器理解,其适用范围局限于以逻辑推理为核心的统计关系学习模型,无法自然地与学习能力更强的基于特征表示的机器学习模型相互融合。本研究针对该问题提出基于递归神经网络的医学知识表示学习算法,构造以医学实体为输入、逻辑知识为隐藏神经元的哈夫曼树状神经网络结构,在疾病诊断任务背景下训练医学知识的分布式表示,通过逐层抽象的学习过程来获得兼具深层语义信息和可解释性的向量化逻辑知识。第三部分为基于医学知识图谱的概率推理模型。医学知识图谱中蕴含着大量的医学经验性知识和常识性知识,这些知识在医生的疾病诊断、检查推荐等临床决策中起到关键作用。传统的概率图模型受二元变量的制约难以刻画症状的严重程度,更重要的是无法处理身体检查中常见的数值型结果。为此,本文分别从医学知识图谱中抽取“症状-疾病”子图和“检查-疾病”子图,借助波尔茨曼机对于成对粒子能量函数的定义改造马尔科夫网的势函数表达式,使得多元变量能够直接参与到概率计算中,并探究了离散型症状变量和连续型检查变量对于模型性能的影响。第四部分为基于最大间隔的医学知识网络权重学习。研究面向知识图谱的推理技术对于智能诊疗、健康推荐等医学相关任务起到至关重要的作用,而合理、有效地学习医学知识置信度同样是提升推理性能的一种途径。本文针对第三部分的多元推理模型提出最大间隔医学知识权重学习算法,结合推理机的联合概率分布式和医学领域的任务特点,将权重学习问题转化为关于权重向量的几何间隔最优化问题,并设计双拉格朗日乘子协同更新算法用以解决该优化问题,最终证明了该学习模型在提升推理性能方面的有效性。第五部分为基于级联失效理论的健康预测模型。对于预测任务而言,统计机器学习的训练过程往往需要依托大量的时序数据。而在医疗领域中,患者体征的持续跟踪受技术和环境等多方面制约,难以形成有效的时序健康数据,无法支持后续预测模型的学习。本文针对该问题探究人体复杂系统的内部作用机制,采用级联失效理论模拟身体状态受疾病影响逐步恶化的过程,通过刻画局部的体征相互作用实现人体系统的全局自主演变,进而达到健康预测的目的。总体而言,本文面向两大类医学文本数据源,研究了在此基础上的医学知识获取与表示、逻辑推理、时序预测的关键技术,在真实电子病历和血液检查报告数据集上显著地提高了不同任务的模型性能。我们期待这些研究成果可以扩展到更多类型的数据和任务中,从而进一步推进自然语言处理技术在疾病诊疗和健康预测领域的研究与发展。