论文部分内容阅读
中医作为传统生命科学的一个重要组成部分,在疾病诊疗方面具有特色和显著的临床疗效。几千年的中医诊疗实践积累大量的临床数据和医学文献,这些数据包含宝贵的中医理论知识和规律,利用数据挖掘技术探求中医药诊治疾病的规律,形成用数字描述和表达的中医药内容,将有力推动中医药研究的规范化进程。近年来,研究人员应用聚类分析、关联规则和回归分析等方法研究中医理论,并已取得一定的研究进展,但由于中医药信息的特殊性,对挖掘算法的高效性和鲁棒性有较高的要求,仍难以体现中医语义复杂性特点及中医诊疗系统性特点。
本文利用主题模型研究中医临床诊疗规律,不仅认为主题模型能够提取中医临床诊疗数据的语义特征,而且关于主题模型的推理过程与《伤寒论》里所述的“观其脉症,知犯何逆,随证治之”的中医辨证论治过程基本一致,都是从显变量的过程到隐变量的过程再到显变量的过程。实验表明,利用主题模型分析临床诊疗数据能够提取中医诊疗规律,为中医临床研究提供一种新颖的理论方法。
本文主要工作如下:
1)分析并总结了以LDA为代表的主题模型的产生背景、发展过程及LDA模型常用的推理方法。
2)在原来LDA模型基础上,对特征词采用加权机制,从而提高主题间的区分能力和可解释性,同时利用建模后的主题作为特征进行支持向量机分类,提高了分类准确率。
3)利用KL距离、主题间相似度和模型复杂度确定主题数目。
4)分析主题模型和中医辨证论治的关系,在LDA模型和作者.主题模型的基础上,提出症状-中药-治法-诊断(SHTDT)主题模型,用于自动提取这四者之间的主题结构,探索具有临床意义的多个实体间的关系。同时利用实体间的关联度和特征词加权机制,对SHTDT进行改进,提高了主题分类的准确度。