基于医学知识图谱的疾病诊断与健康预测模型研究

来源 :哈尔滨工业大学 | 被引量 : 2次 | 上传用户:hawkwangyan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面向文本的知识获取与表示属于自然语言处理和知识工程的交叉课题,是模拟人类认知、逻辑推理、时序预测等智能化能力的基础性研究。在统计自然语言处理研究中,常见的知识表示有基于人类语言的符号化形式,例如由实体和关系组成的三元组知识、更富语义表达的一阶或高阶逻辑知识等。此类知识形式具备直观简洁、易于理解的优势,结合统计学习模型可以有效地应用于一些主流的语言处理任务。另一种知识形式采用分布式表示,通常以连续、稠密、低维向量刻画知识的语义信息和知识之间的关联性,例如以Trans E为代表的实体嵌入方法、以GNN(graph neural network)为代表的图嵌入方法等。这种表示学习方法可以通过大规模语料获得更为抽象的特征性信息,高效地适用于大部分统计机器学习算法。近年来,以三元组为结构单元的知识图谱在智能搜索、问答系统以及信息推荐等任务上取得了突出成果,不仅为统计关系学习(statistical relational learning)提供准确、可追踪、可解释的知识数据,而且能够有效支持面向噪音数据和多关系型数据的不确定性推理。鉴于开放域知识获取难度大、维护成本高等问题,目前的知识图谱构建及相关研究多以任务为导向,将知识类型和数据源限定于某个特定领域,往往可以利用有限的资源服务于各类决策支持系统。本研究以医学领域为课题背景,研究面向医学文本的知识获取与表示、概率推理和时序预测的关键技术,主要内容包括以下五个方面:第一部分为面向医学文本的知识图谱构建。针对医学知识图谱构建中存在的分类体系不健全和语料匮乏的问题,本文结合电子病历和临床诊疗指南的文本特点,制定了医学概念和医学概念关系的分类体系规范,并在该体系的指导下以人工标注方式构建了以实体为节点、实体关系为边的医学知识图谱。通过复杂网络分析挖掘该图谱的结构特性,验证其蕴含的复杂知识体系可以为疾病推理和健康预测等研究提供数据支持。第二部分为基于医学知识表示的疾病诊断模型。鉴于符号化知识所蕴含的语义信息难以被机器理解,其适用范围局限于以逻辑推理为核心的统计关系学习模型,无法自然地与学习能力更强的基于特征表示的机器学习模型相互融合。本研究针对该问题提出基于递归神经网络的医学知识表示学习算法,构造以医学实体为输入、逻辑知识为隐藏神经元的哈夫曼树状神经网络结构,在疾病诊断任务背景下训练医学知识的分布式表示,通过逐层抽象的学习过程来获得兼具深层语义信息和可解释性的向量化逻辑知识。第三部分为基于医学知识图谱的概率推理模型。医学知识图谱中蕴含着大量的医学经验性知识和常识性知识,这些知识在医生的疾病诊断、检查推荐等临床决策中起到关键作用。传统的概率图模型受二元变量的制约难以刻画症状的严重程度,更重要的是无法处理身体检查中常见的数值型结果。为此,本文分别从医学知识图谱中抽取“症状-疾病”子图和“检查-疾病”子图,借助波尔茨曼机对于成对粒子能量函数的定义改造马尔科夫网的势函数表达式,使得多元变量能够直接参与到概率计算中,并探究了离散型症状变量和连续型检查变量对于模型性能的影响。第四部分为基于最大间隔的医学知识网络权重学习。研究面向知识图谱的推理技术对于智能诊疗、健康推荐等医学相关任务起到至关重要的作用,而合理、有效地学习医学知识置信度同样是提升推理性能的一种途径。本文针对第三部分的多元推理模型提出最大间隔医学知识权重学习算法,结合推理机的联合概率分布式和医学领域的任务特点,将权重学习问题转化为关于权重向量的几何间隔最优化问题,并设计双拉格朗日乘子协同更新算法用以解决该优化问题,最终证明了该学习模型在提升推理性能方面的有效性。第五部分为基于级联失效理论的健康预测模型。对于预测任务而言,统计机器学习的训练过程往往需要依托大量的时序数据。而在医疗领域中,患者体征的持续跟踪受技术和环境等多方面制约,难以形成有效的时序健康数据,无法支持后续预测模型的学习。本文针对该问题探究人体复杂系统的内部作用机制,采用级联失效理论模拟身体状态受疾病影响逐步恶化的过程,通过刻画局部的体征相互作用实现人体系统的全局自主演变,进而达到健康预测的目的。总体而言,本文面向两大类医学文本数据源,研究了在此基础上的医学知识获取与表示、逻辑推理、时序预测的关键技术,在真实电子病历和血液检查报告数据集上显著地提高了不同任务的模型性能。我们期待这些研究成果可以扩展到更多类型的数据和任务中,从而进一步推进自然语言处理技术在疾病诊疗和健康预测领域的研究与发展。
其他文献
脐是胚胎时期的自然孔道,如能通过脐孔完成腹腔内脏器的手术,既能避免腹壁切口,达到无瘢痕手术的效果,又避免了经胃、阴道或直肠的感染问题,同时可使用常规腹腔镜器械完成操作,因此
党的十七大报告明确提出,“坚持科学发展观,实现经济社会又好又快发展”是全面建设小康社会的新需要、新任务。结合袁州区的现状,我认为,要实现袁州区又好又快发展,必须打好“五大
省党代会提出了“江西在中部崛起实现新跨越”的战略思想,中央提出了建设现代农业的新思路,省经济工作会议提出了“圆江西崛起之梦”的方略和措施,应该说是思路清晰,提纲挈领,举措
各市、县(区)人民政府,省监察厅、省国土资源厅、省财政厅、省建设厅、省审计厅:经省政府同意,现将监察部、国土资源部、财政部、建设部、审计署《关于开展国有土地使用权出让情况
总结12例侧脑室钻孔引流治疗成人烟雾病合并脑室出血的护理。术前做好一般护理、手术准备及心理护理;术后加强引流管护理,严密观察病情,预防颅内再出血、短暂性缺血发作及高
本研究选用65只新西兰白兔,观察经口灌入柴葛解肌汤(柴葛汤)对家兔白细胞致热原(LP)性发热效应及脑脊液cAMP含量的影响。结果表明:(1)柴葛汤经口灌入对家兔正常体温没有明显
<正>~~
期刊
国有企业党群关系构建为重要的工作内容,可促进国有企业的发展,巩固我党的执政地位。因此,本文针对国有企业党群关系构建思路及党群工作的创新做出了进一步探究,对国有企业党
现阶段,国家越来越重视大学生创业,创业教育也在不断发展,但是真正实现大学生从入学到毕业、从毕业到创业,仍需要全方位、多角度、系统化的理念和实践支撑,需要更多的社会力
本文从在体、离体两个方面观察失血条件下糖皮质激素对IL-1的作用及其特点。大鼠30%失血后立即给予0.5ml地塞米松磷酸钠注射液或生理盐水,2-3h后地塞米松治疗组动物血浆IL-1活性明显低于生理盐水治