论文部分内容阅读
主题模型(Topic Model)是一类常用的从文档集中提取隐含主题的机器学习算法。作为一个典型的概率图模型,主题模型具有整体性和优雅的优点,利用图模型的直观表达,可以容易地表达一个领域中随机变量之间的复杂关系,从而对复杂的实际问题建模。主题模型的另一个优势是,只要可以将其他类型的数据样本比作“文档”,并且该“文档”由一组“词”组成,就可以将主题模型用于该类型数据的分析。 然而,无监督的主题模型由于没有利用领域知识经常产生难以令人理解的主题。已有一些工作将领域知识加入主题模型,但它们考虑的知识形式往往十分有限。 中医药是中华民族的宝贵财富,是中国对世界的重大贡献。作为一个与现代医学完全不同的治疗体系,几千年来,中医药为保障中国及周边国家人民的健康做出了不可或缺的贡献。从中医宝库中挖掘有用的信息,对于提高中医药的治疗水平、弘扬民族文化具有重要意义。 在中医药的诊疗体系中,处方是最重要的治疗手段。处方一般由一组药物组成。在中国几千年的历史上,历代医家创造了大量的处方以治疗疾病。很多有效的处方被记载下来并一直运用至今。而医案是另一类重要的临床数据,它是中医辨证论治、组药谴方的诊疗过程的完整记录。从处方和医案中挖掘有用的治疗模式,是中医临床数据挖掘的重要课题,对于辅助临床治疗、新处方开发等具有很强的指导作用。 本文主要研究如何将各种形式的领域知识引入主题模型以提升其在文本挖掘任务中的性能,并将基于知识的主题模型应用于中医临床数据挖掘以发现中医诊疗规律。 具体而言,本文的主要工作可以总结为如下几个方面: (1)考虑概率形式知识库的主题模型。经典的基于知识的主题模型往往能够利用的知识的量有限,或者只能考虑确定性的非黑即白的知识,而知识往往具有概率性。本文提出了一种新颖的将大规模概率形式知识库和主题模型结合的方法,通过将经典主题模型latent Dirichlet allocation(LDA)与大规模概率知识库Probase结合,显著地提高了主题的语义一致性。 (2)结合维基百科知识的主题模型。经典的基于知识的主题模型和动态主题模型没有考虑维基百科中的概念知识和时间信息。本文提出了一种新颖的结合维基百科知识的主题模型,通过将LDA与维基百科词条及其访问量信息结合,该模型可以更好地发现文本中的事件,以及与事件相关的具体的概念上一致的实体。 (3)结合从大规模文本中训练得到的词向量的主题模型。大多数基于知识的主题模型都需要从外部知识库获取知识而不能自动学习知识。本文提出了一种利用词向量和大规模文本有效学习语义知识并引入主题模型的方法,通过将词向量编码的语义相似知识引入LDA模型,可以得到比几种最近的基于知识的主题模型更好的效果。 (4)结合知识图谱向量的主题模型。已有的基于知识的主题模型考虑了各种形式的知识,但都忽略了一种重要的知识形式——知识图谱中的三元组知识。本文提出了一种新颖的结合知识图谱向量的主题模型,通过最近流行的知识图谱向量(Knowledge Graph Embedding)技术,可以将知识图谱中的关系和实体表示成向量。将实体向量与LDA结合,我们的模型可以产生语义一致性更高的主题和更容易分类的文本特征表示。 (5)一种中医处方主题模型。基于中医方剂学的“理法方药”、“君臣佐使”和“药对配伍”等理论,提出了一种新颖的中医处方主题模型,并将药物的功效知识引入模型。该模型在根据症状推荐药物,根据药物预测症状以及症状-药物对应关系发现三个任务上取得了比传统方法更好的性能。 (6)利用主题模型和中医领域知识挖掘中医医案治疗模式。根据“理法方药”的理论,设计了一个包含证候/治法标引、治疗模式发现、和医案处方功效预测的框架,该框架能够准确地发现每种治疗方法的用药规律并提升处方功效预测的效果。