论文部分内容阅读
主题模型(Topic Model)能够提取隐含在文档(或其它离散数据集)中的主题,其中每个主题是语义相关的词上的多项式分布。主题模型的主要目的是提取数据集中隐含的统计规律且利用主题进行直观表达,然后可以利用获得的主题进行信息检索、分类、聚类、摘要提取以及进行信息间相似性、相关性判断等一系列应用。近年来,主题模型已逐渐成为文本挖掘、信息检索等领域的一个新的研究方向。中国传统医学(简称中医)作为传统生命科学的一个重要组成部分,在疾病诊疗方面具有特色和显著的临床疗效。几千年的中医诊疗实践积累了大量的临床数据,这些数据中包含着丰富的符合中医理论的知识与规律。在中医信息化建设的背景下,利用现代化手段挖掘隐藏在这些临床数据中的中医诊疗规律具有重要意义。随着数据挖掘技术的逐渐成熟和广泛应用,利用数据挖掘等手段,分析挖掘中医诊疗规律已逐渐成为国内中医理论研究热点。近年来,研究人员应用聚类分析、关联规则以及回归分析和判别分析等方法研究中医理论,并已取得了一定的研究进展,但是,仍然难以体现中医的语义复杂性特点以及中医诊疗的系统性特点。本文首次尝试把主题模型引入中医临床诊疗规律的研究中。使用主题模型的动机是我们不仅认为主题模型能够捕获中医临床诊疗数据集中的语义特征,而且认为主题模型中的主题推理及生成过程与《伤寒论》所述的“观其脉症,知犯何逆,随证治之”的中医辨证论治过程基本一致,都是由显变量到隐变量再到显变量的过程。本文利用主题模型分析了2型糖尿病、冠心病的临床诊疗数据以及中医文献数据。实验表明,利用主题模型能够提取出有临床意义的中医诊疗规律,为中医临床研究提供一种新颖的理论方法,为中医临床辨证治疗提供一种客观依据。本文的主要工作如下:(1)以隐狄利克雷分配(Latent Dirichlet Allocation, LDA)模型为代表的主题模型,是近年来文本挖掘和信息检索等领域的一个新的研究热点。本文系统地对主题模型的产生背景、发展过程、LDA主题模型常用的推理方法以及典型的主题模型进行归纳总结。为本文的研究奠定基础,为相关研究人员在主题模型领域的应用研究提供较系统的参考依据。(2)提出LDA主题模型的特征加权机制。我们直接采用LDA主题模型分析中医临床症状主题时,发现主题分布向高频词倾斜,能够代表主题特征的词被少量的高频词淹没,导致主题的解释性和区分性不佳,而且在建模过程中影响其它词在主题上的合理分配。于是,针对标准文本数据,采用倒排文档频率(Inverse Document Frequency, IDF)进行特征加权;针对中医临床数据,提出一种新颖的高斯函数特征加权方法。实验表明:加权LDA主题模型能够提高主题间的区分能力、提高主题的可解释性以及提高主题模型的建模速度;在Newsgroups标准数据集上,利用建模后的主题作为特征进行支持向量机(Support Vector Machine, SVM)分类时,能够提高分类准确率(Accuracy);能够在一定条件下,降低模型的困惑度/复杂度(Perplexity)。(3)针对LDA主题模型不能自动确定主题数目的问题,提出一种结合词相似性与中国餐馆过程(Chinese Restaurant Process, CRP)的主题模型;同时,针对LDA主题模型的Gibbs抽样近似推理中的两个Dirichlet超参数难以合理设置的问题,提出一种新颖的超参数设置方法。实验表明:提出的模型可以自适应地动态更新主题内容,确定合理的主题数目;超参数的设置能够方便灵活地适应不同的数据集,取得较低的模型复杂度。(4)分析主题模型和中医辨证论治的联系,在LDA模型和作者-主题模型的基础上,提出一种症状-中药-诊断主题模型,用于自动提取中医临床数据中症状、中药和诊断间的主题结构,系统地探索具有临床意义的多个实体间的关系。在2型糖尿病临床数据的分析实验中,获得了2型糖尿病典型的并发症/合并病(如糖尿病合并肾病,糖尿病外围神经病变等)的诊疗主题结构。实验结果分析表明:一类症状或其组合仅为人群/疾病分类找到了一种划分方式或依据,并不等同于该症状组合就对应唯一的证候或诊断,中医存在个性化诊疗特点;同时中医也存在共性的诊疗规律;提出的症状-中药-诊断主题模型能较好地揭示疾病的症状和中药分布特征以及中医诊疗规律。(5)对于一种复杂疾病(如糖尿病),通常存在多种并发症。于是,体现出的症状存在疾病主症和伴随症状间的层次关系;同时,用药也存在相应的分层关系,即对方剂进行随症加减。针对上述情况,为了揭示症状及相应用药的层次关系,本文在分层LDA模型和连接LDA模型的基础上,提出一种分层症状-中药主题模型。该模型在糖尿病临床数据的实验中,发现了有临床意义的症状分层结构和对应的用药分层规律。为探索中医临床诊疗中的方剂随症加减规律提供一种新颖的统计方法。