论文部分内容阅读
中医学是中国传统文明中的重要组成部分,目前已经被应用于治疗多种复杂疾病,并且取得了较好的效果。在大数据背景下,中医临床中已经积累了大量的医疗数据,对这些数据的建模与分析可以用于临床辅助诊疗,带动中医学的理论与临床的发展。因此,如何结合中医理论对临床诊疗数据建模是一个研究重点。另外,这些数据中蕴含着中医实体之间的复杂的语义关系,如何利用这些数据提升模型的分析能力也是一个难题。因此,本文提出面向中医诊疗数据的隐语义分析技术。具体地,本文通过改进的主题建模方法挖掘中医医案数据中的症状与药物之间的关系,并且为给定症状推荐药物。首先,本文提出了多内容LDA模型,引入中医理论中病机的概念,分析医案文档中症状与药物之间的关系,并且提出了相应的药物推荐方法。然后基于更加丰富的多种形式的中医数据,提出了两种中医实体的向量化表示方法,用于获取包含更加丰富信息的中医实体词向量。进一步地,本文将词向量融入主题模型中,提出了多内容词向量LDA模型,具备更优的分析效果和推荐性能。本文的主要贡献点概括如下:·基于多内容LDA模型的中医诊疗提出了多内容LDA模型MC-LDA,将中医理论中的病机看作主题模型中的隐含主题,用于连接医案数据中的症状与药物单词。模型的输出结果可以用于分析症状和药物之间的对应关系。此外,提出了药物推荐算法用于临床辅助诊疗:根据给定的病人的一系列症状推荐一组药物。·中医实体的向量化表示方法提出了两种中医实体向量化表示方法,并且对结果进行可视化展示与分析。第一种方法基于上下文信息,第二种方法基于中医知识图谱。中医实体的向量化表示基于更加丰富的医学数据,提供了包含更加丰富信息的中医实体词向量,这些词向量后续可以作为多种机器学习模型的输入,提升模型的效果。·基于多内容词向量LDA模型的中医诊疗考虑到中医实体间存在的语义信息,进一步提出了多内容词向量LDA模型MC-eLDA。每篇医案文档包含一组症状词向量和一组对应的药物词向量,模型用高斯分布对这些词向量进行建模。提升了同一主题下的词的语义相关性,进而提升模型挖掘症状与药物之间的关系的效果和药物推荐效果。