主题模型及其在中医临床诊疗中的应用研究

被引量 : 40次 | 上传用户:ccscbr66
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
主题模型(Topic Model)能够提取隐含在文档(或其它离散数据集)中的主题,其中每个主题是语义相关的词上的多项式分布。主题模型的主要目的是提取数据集中隐含的统计规律且利用主题进行直观表达,然后可以利用获得的主题进行信息检索、分类、聚类、摘要提取以及进行信息间相似性、相关性判断等一系列应用。近年来,主题模型已逐渐成为文本挖掘、信息检索等领域的一个新的研究方向。中国传统医学(简称中医)作为传统生命科学的一个重要组成部分,在疾病诊疗方面具有特色和显著的临床疗效。几千年的中医诊疗实践积累了大量的临床数据,这些数据中包含着丰富的符合中医理论的知识与规律。在中医信息化建设的背景下,利用现代化手段挖掘隐藏在这些临床数据中的中医诊疗规律具有重要意义。随着数据挖掘技术的逐渐成熟和广泛应用,利用数据挖掘等手段,分析挖掘中医诊疗规律已逐渐成为国内中医理论研究热点。近年来,研究人员应用聚类分析、关联规则以及回归分析和判别分析等方法研究中医理论,并已取得了一定的研究进展,但是,仍然难以体现中医的语义复杂性特点以及中医诊疗的系统性特点。本文首次尝试把主题模型引入中医临床诊疗规律的研究中。使用主题模型的动机是我们不仅认为主题模型能够捕获中医临床诊疗数据集中的语义特征,而且认为主题模型中的主题推理及生成过程与《伤寒论》所述的“观其脉症,知犯何逆,随证治之”的中医辨证论治过程基本一致,都是由显变量到隐变量再到显变量的过程。本文利用主题模型分析了2型糖尿病、冠心病的临床诊疗数据以及中医文献数据。实验表明,利用主题模型能够提取出有临床意义的中医诊疗规律,为中医临床研究提供一种新颖的理论方法,为中医临床辨证治疗提供一种客观依据。本文的主要工作如下:(1)以隐狄利克雷分配(Latent Dirichlet Allocation, LDA)模型为代表的主题模型,是近年来文本挖掘和信息检索等领域的一个新的研究热点。本文系统地对主题模型的产生背景、发展过程、LDA主题模型常用的推理方法以及典型的主题模型进行归纳总结。为本文的研究奠定基础,为相关研究人员在主题模型领域的应用研究提供较系统的参考依据。(2)提出LDA主题模型的特征加权机制。我们直接采用LDA主题模型分析中医临床症状主题时,发现主题分布向高频词倾斜,能够代表主题特征的词被少量的高频词淹没,导致主题的解释性和区分性不佳,而且在建模过程中影响其它词在主题上的合理分配。于是,针对标准文本数据,采用倒排文档频率(Inverse Document Frequency, IDF)进行特征加权;针对中医临床数据,提出一种新颖的高斯函数特征加权方法。实验表明:加权LDA主题模型能够提高主题间的区分能力、提高主题的可解释性以及提高主题模型的建模速度;在Newsgroups标准数据集上,利用建模后的主题作为特征进行支持向量机(Support Vector Machine, SVM)分类时,能够提高分类准确率(Accuracy);能够在一定条件下,降低模型的困惑度/复杂度(Perplexity)。(3)针对LDA主题模型不能自动确定主题数目的问题,提出一种结合词相似性与中国餐馆过程(Chinese Restaurant Process, CRP)的主题模型;同时,针对LDA主题模型的Gibbs抽样近似推理中的两个Dirichlet超参数难以合理设置的问题,提出一种新颖的超参数设置方法。实验表明:提出的模型可以自适应地动态更新主题内容,确定合理的主题数目;超参数的设置能够方便灵活地适应不同的数据集,取得较低的模型复杂度。(4)分析主题模型和中医辨证论治的联系,在LDA模型和作者-主题模型的基础上,提出一种症状-中药-诊断主题模型,用于自动提取中医临床数据中症状、中药和诊断间的主题结构,系统地探索具有临床意义的多个实体间的关系。在2型糖尿病临床数据的分析实验中,获得了2型糖尿病典型的并发症/合并病(如糖尿病合并肾病,糖尿病外围神经病变等)的诊疗主题结构。实验结果分析表明:一类症状或其组合仅为人群/疾病分类找到了一种划分方式或依据,并不等同于该症状组合就对应唯一的证候或诊断,中医存在个性化诊疗特点;同时中医也存在共性的诊疗规律;提出的症状-中药-诊断主题模型能较好地揭示疾病的症状和中药分布特征以及中医诊疗规律。(5)对于一种复杂疾病(如糖尿病),通常存在多种并发症。于是,体现出的症状存在疾病主症和伴随症状间的层次关系;同时,用药也存在相应的分层关系,即对方剂进行随症加减。针对上述情况,为了揭示症状及相应用药的层次关系,本文在分层LDA模型和连接LDA模型的基础上,提出一种分层症状-中药主题模型。该模型在糖尿病临床数据的实验中,发现了有临床意义的症状分层结构和对应的用药分层规律。为探索中医临床诊疗中的方剂随症加减规律提供一种新颖的统计方法。
其他文献
<正> 《黄帝内经素问》(以下简称《素问》)是中医基本理论的渊薮,也是我国优秀文化遗产的重要组成部分。从现存《素问》的内容来看,这部著作决非出自一时、一人之笔,而是在一
睡虎地秦简出现了大量的合成词,其中三分之一以上是常用词,绝大部分沿用到今天,揭示了上古汉语具备了这样的功能:利用词根能产地合成新词,以适应社会发展的需要。尽管现代汉
青春瑰丽而短暂,如何让青春的异彩在生命中得到永恒?四川绵竹电力股份公司的总经理莫晓华给了我一个答案——创造!这个改制不到两年的公司是集发电、供电、冶炼、机电设备修
期刊
生态文明建设问题是当今中国社会发展的重要问题,生态文明的发展程度很大程度取决于生态执法保障的水平,作为生态文明建设的关键环节,应该具备问题意识,从问题出发强化生态文
采用浸入沉淀相转化和铸膜液光透射测试相结合的方法,考察了添加剂聚乙烯毗咯烷酮(PVP)和聚乙二醇(PEO)对聚偏氟乙烯(PVDF)/PVP(PEO)/二甲基乙酰胺(DMAc)铸膜液的扩散性质的影响。实验中改
目的 探讨医用组织胶水在儿童眼睑皮肤创口中的应用及其效果。方法 回顾性分析2015年11月至2016年10月武汉儿童医院眼科共458例眼部皮肤创口(眼睑皮肤裂伤或手术切口),分别采用
通过构建游客的满意度评价指标体系,结合模糊综合评价法对普达措公园游客满意度进行调查和分析。结果表明:普达措国家公园景区的游客满意度为基本满意,指标得分高低为保护情
目的分析呼吸道疾病运用雾化吸入及有效咳嗽排痰护理的效果。方法选取2016年1月~2017年1月我中心收治的呼吸道疾病患者50例作为研究对象,随机将其分为实验组和常规组,各25例,
石城子遗址位于新疆维吾尔自治区昌吉回族自治州奇台县半截沟镇麻沟梁村。地处天山山脉北麓山前丘陵地带,依地势而建,北高南低,起伏较大。东、南部临深涧,涧底有麻沟河由东绕北经
报纸
2007年以来,我国农业保险在国家支农、惠农政策扶植下,一直保持平稳较快发展,在稳定农业生产、农民再生产能力和收入,以及保障国家粮食安全等方面发挥了重要作用。但目前我国