基于知识的主题模型及其在中医临床数据挖掘中的应用

来源 :浙江大学 | 被引量 : 0次 | 上传用户:zhhq516686
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
主题模型(Topic Model)是一类常用的从文档集中提取隐含主题的机器学习算法。作为一个典型的概率图模型,主题模型具有整体性和优雅的优点,利用图模型的直观表达,可以容易地表达一个领域中随机变量之间的复杂关系,从而对复杂的实际问题建模。主题模型的另一个优势是,只要可以将其他类型的数据样本比作“文档”,并且该“文档”由一组“词”组成,就可以将主题模型用于该类型数据的分析。  然而,无监督的主题模型由于没有利用领域知识经常产生难以令人理解的主题。已有一些工作将领域知识加入主题模型,但它们考虑的知识形式往往十分有限。  中医药是中华民族的宝贵财富,是中国对世界的重大贡献。作为一个与现代医学完全不同的治疗体系,几千年来,中医药为保障中国及周边国家人民的健康做出了不可或缺的贡献。从中医宝库中挖掘有用的信息,对于提高中医药的治疗水平、弘扬民族文化具有重要意义。  在中医药的诊疗体系中,处方是最重要的治疗手段。处方一般由一组药物组成。在中国几千年的历史上,历代医家创造了大量的处方以治疗疾病。很多有效的处方被记载下来并一直运用至今。而医案是另一类重要的临床数据,它是中医辨证论治、组药谴方的诊疗过程的完整记录。从处方和医案中挖掘有用的治疗模式,是中医临床数据挖掘的重要课题,对于辅助临床治疗、新处方开发等具有很强的指导作用。  本文主要研究如何将各种形式的领域知识引入主题模型以提升其在文本挖掘任务中的性能,并将基于知识的主题模型应用于中医临床数据挖掘以发现中医诊疗规律。  具体而言,本文的主要工作可以总结为如下几个方面:  (1)考虑概率形式知识库的主题模型。经典的基于知识的主题模型往往能够利用的知识的量有限,或者只能考虑确定性的非黑即白的知识,而知识往往具有概率性。本文提出了一种新颖的将大规模概率形式知识库和主题模型结合的方法,通过将经典主题模型latent Dirichlet allocation(LDA)与大规模概率知识库Probase结合,显著地提高了主题的语义一致性。  (2)结合维基百科知识的主题模型。经典的基于知识的主题模型和动态主题模型没有考虑维基百科中的概念知识和时间信息。本文提出了一种新颖的结合维基百科知识的主题模型,通过将LDA与维基百科词条及其访问量信息结合,该模型可以更好地发现文本中的事件,以及与事件相关的具体的概念上一致的实体。  (3)结合从大规模文本中训练得到的词向量的主题模型。大多数基于知识的主题模型都需要从外部知识库获取知识而不能自动学习知识。本文提出了一种利用词向量和大规模文本有效学习语义知识并引入主题模型的方法,通过将词向量编码的语义相似知识引入LDA模型,可以得到比几种最近的基于知识的主题模型更好的效果。  (4)结合知识图谱向量的主题模型。已有的基于知识的主题模型考虑了各种形式的知识,但都忽略了一种重要的知识形式——知识图谱中的三元组知识。本文提出了一种新颖的结合知识图谱向量的主题模型,通过最近流行的知识图谱向量(Knowledge Graph Embedding)技术,可以将知识图谱中的关系和实体表示成向量。将实体向量与LDA结合,我们的模型可以产生语义一致性更高的主题和更容易分类的文本特征表示。  (5)一种中医处方主题模型。基于中医方剂学的“理法方药”、“君臣佐使”和“药对配伍”等理论,提出了一种新颖的中医处方主题模型,并将药物的功效知识引入模型。该模型在根据症状推荐药物,根据药物预测症状以及症状-药物对应关系发现三个任务上取得了比传统方法更好的性能。  (6)利用主题模型和中医领域知识挖掘中医医案治疗模式。根据“理法方药”的理论,设计了一个包含证候/治法标引、治疗模式发现、和医案处方功效预测的框架,该框架能够准确地发现每种治疗方法的用药规律并提升处方功效预测的效果。
其他文献
目前盛行的网络应用是客户机/服务器(Client/Server,简称C/S)模式,这种模式虽然有利于网络的集中控制,但同时也制约着网络的广度和深度的发展.随着分布式计算技术的快速发展
现代服务业是指在工业化比较发达的阶段产生的、依托信息技术和现代管理理念发展起来的、信息和知识相对密集的服务业,包括由传统服务业通过技术改造升级和经营模式更新而形成
客户关系管理(CRM—Customer Relationship Management)是适应现代管理思想发展起来的一种新型管理模式,可以分为协作型、操作型、分析型三种类型或三个部分,分别实现接入管理
生产数据一直是工业企业最关心的信息。过去,这些数据信息只能记录和显示在车间控制室。随着网络的普及和发展,各企业都拥有自己的Intranet,这为发展工业生产数据监测系统提
随着Internet的发展,人们对网络信息安全的要求越来越高。在网络信息安全系统中,防火墙作为常用的网络防护方式在保障网络的安全访问方面具有重要的作用。防火墙需要人为的进行
本文的主要内容是关于一个基于三层C/S结构的自来水水费MIS系统的分析、设计和实现的具体过程及技术实现细节。 我们在认真分析了自来水行业普遍的业务流程以及苏州吴中自
该文以数据仓库、联机分析处理和数据挖掘技术为研究背景,从提高数据仓库和OLAP系统性能的角度出发,研究了实物化视图技术.以数据的展现为要求,设计与实现了OLAP多维分析中的
银行卡是集主要银行业务于一身的金融产品,有着悠久的发展历史和良好的历史数据.该文论述的如何利用数据仓库、数据挖掘工具,建立基于数据仓库技术的银行卡决策支持系统的设
现有的Ad Hoc按需路由协议在路由发现过程中仅根据路由跳数和路由Fresh程度等参数进行路由选择,而不考虑构成路由的各条链路的状态。这将增加使用潜在的不可靠路由的可能,而
空间分析是地理信息系统的基本应用需求,也是地理信息系统区别于其他管理信息系统的重要功能。在地理信息系统中,使用者往往根据不同的应用需求,向地理信息系统提出分析和查询某