证候研究中常用数据分析方法的文献研究及基于隐类模型的抑郁症隐变量分析

来源 :北京中医药大学 | 被引量 : 13次 | 上传用户:zwj306041732
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
证候是对疾病过程中所处一定阶段的病位、病因病性以及病势等所作的病理概括。证候的概念包括了对疾病因素与机体反应性两方面情况的综合,它是对疾病当前本质,即现阶段的病位、病因病性以及病势等病理要素所作的结论,它是中医特色的诊断概念,是中医辨证论治治疗特色的集中体现。现今基于临床流行病学病证结合调查,进行多种数据分析,探讨证候与症状的关系的研究模式,已得到行业的共识。近年来有很多的数据分析方法被应用于证候研究中,这些方法大致可以分为两大类:有监督数据分析、无监督数据分析。其中有监督数据分析方法有:频率分析、相关分析、判别分析、回归分析等;无监督数据分析方法有分析:聚类分析、因子分析、隐类分析等。这些方法在证候研究中尚处于尝试状态,而且很多研究者对于方法的适用范围,应用方法尚不够熟练,往往存在一些问题,如:很多数据分析方法的基本理论与中医证候、症状变量的特性不太切合;统计样本数据变量要求不符合中医症状变量的特性;统计结果的理解和截取较为主观等。目前对于证候研究中的各种数据分析方法的应用情况尚缺乏较为系统的分析与评价,而如何基于临床流行病学调查数据,应用无监督数据分析方法构建病证结合的数学模型,更是研究的重点。本研究拟通过对近20年应用数据分析进行证候研究的文献分析,对证候研究中数据分析的应用状况,常用方法,应用方法等进行较为系统的评述,梳理、归纳,总结出常见数据分析方法的适用范围、应用的优点、缺点和适合度;并采用病证结合为前题,在此基础上选用目前国际上较为共识的数据分析方法——隐类分析,以抑郁症为例,对基于临床流行病学调查所获取的症状信息进行无监督的隐类分折,在符合中医辨证概念和统计学的原理下,提出常见症状组合,并诠释其含义,为今后建立病证结合下证候诊断标准及证候研究中数据分析方法的应用提供一定依据。目的:1梳理、归纳证候研究中常用数据分析方法的应用现状和特点。2评述常用的无监督数据分析方法在证候研究中应用现状。3基于无监督的隐类分析方法,提取抑郁症的症状分类组合。4探讨基于隐类的分析方法在证候规范化研究中的适用性。方法:1通过对近二十年的证候研究中相关数据分析方法的文献检索、整理,应用MSAccess软件建立数据库,运用SPSS 17软件对数据分析方法的情况进行描述性的统计分析。2基于抑郁症临床流行病学调查信息,应用隐类模型(Latent Class Model)对中医分组症状变量(显变量),通过隐类分析(Latent Class Analysis)进行症状聚类,确立每组的分类数目,提取出分组的症状组合(隐变量),然后建立新的症状隐变量数据库,再进行二次数据分析,初步提取抑郁症的常见症状组合。结果:1 证候研究中常用数据分析方法的文献研究通过文献检索共收集到1289篇涉及中医证候数据分析的现代文献,其中符合纳入标准的文献489篇,经统计分析后得出:(1)证候研究中常用数据分析方法的的现状分析共收集了498篇文章,其中无监督证候研究的文献337篇(68%),有监督证候研究的文献161篇(32%),发现无监督的数据分析方法将会是证候研究的主流方向,以确保证候诊断客观性;数据分析方面,最常用的是聚类分析和因子分析,分别有207篇文章应用了聚类分析方法,及有153篇文章应用了因子分析方法,它们可以独立也可联合一起使用,当中以聚类分析和因子分析一起运用为最常见。在应用数学模型中,主要是建立诊断模型和研究症状分布为主,分别为88%和74%。数据来源主要是流行病学调查,可见流行病学调查是收集症状数据在证候研究中常用的一种符合国际标准的疾病研究方法。(2)因子分析的应用评述因子分析文献中运用相关系数矩阵的为29篇(19%),协方差矩阵的为3篇(2%)。首先因子分析的要求是连续变量,而大多数证候文献研究是分类变量,所以因子分析应用在中医证候研究上出现了根本的变量要求假设问题,再加上相关系数矩阵就是协方差矩阵的标准化简单化,当中丢失了很多重要的信息,所以我们在应用因子分析时,应当使用协方差矩阵比较合适;前提验检方面,在有72篇记载KMO数值的文献中,平均值是0.69,其中有36篇大于0.7,在现代统计学中,KMO的标准值是0.7,属于尚可接受,那就代表了因子分析的应用情况不太理想;在有19篇记载相关系数的文献中,平均值是0.58,在现代统计学中,相关系数0.40-0.69属于中度相关,那说明了接近一半的因子分析文献是尚可接受;因子分析类别主要是探索性,这与数据分析常用于症状分组与建立诊断模型特性相配合;抽取初始因子方法主要是主成分法,占52篇,而迭代主因子法则只有6篇,但主成分法主要是以最小的因子数目来解释原始数据协方差矩阵,这与中医理论不合适,而迭代主因子法是基于最佳的负载荷为原则,寻找最后公共方差而提取公因子,这应该才是最适合的因子分析在证候研究中的因子抽取方法;因子旋转方法主要是最大方差正交,占90篇,而斜交旋转方法只占9篇,正交旋转的普及性应用可能是它能容易解释和表示因子分析的结果,但这旋转方法的假设是因子之间不相关,这不符合中医的证候特点,而斜交旋转方法能确保简单结构,并允许因子之间相交,这更符合证候的特点;病例/症状之比中位数值是6.12,而统计理论要求最小值是8,这跟标准不符合,所以应用不理想;因子特征根值全保持在1或以上,因为都主要用Kaiser方法,问题是这会提取过多的因子。(3)聚类分析的应用评述聚类分析文献中应用距离统计量的文献为159篇(76%),相关系数统计量的为48篇(23%),模糊识别法的为2篇(1%);首先距离统计量是连续变量,而相关系数统计量也只是症状分类变量的转化,所以大多数的文献研究也不符合统计假设要求;聚类分析文献中属于症状分布研究的文献占174篇(84%),证、症关系研究的文献占33篇(16%),而属于变量聚类的文献占116篇(68%),属于样本聚类的文献占91篇(32%),可见聚类分析主要是以聚类为主,而没有研究当中的症状与症状之间的潜在关系;应用相关系数的文献为56篇(27%),最近中心坐标法文献为55篇(27%),组间连接法的文献为53篇(26%),离差平方和法的文献为21篇(10%),计算距离的方法太多,不同的方法得出的结果很不相同,所以利用聚类分析方法来建立证候标准是不太适合,特别是应用在K均值聚类。2基于隐类模型的抑郁症隐变量的分析基于604例抑郁症临床调查数据,进行隐类分析。按照中医证候诊断四诊原则,将90个症状分成精神症状、寒热饮食症状、头面部症状、胸腹躯体四肢症状、睡眠二便症状、舌象症状和脉象症状共7个组别,然后对每个症状组别进行隐类分析的症状分组,当中群组的数目是基于最大拟合度,利用AIC3信息选出最适配模型,然后再以相关系数、条件概率和后验概率来决定分多少症状组合和组合中包含那些症状,得出局部症状组合如下:(1)精神症状有6个隐变量症状组合,根据症状,各组的内容如下:组1:反应迟缓、思维迟缓、意志减退、悲观、烦躁、动作迟缓、优柔寡断;组2:注意力不易集中、反应迟缓、思维迟缓;组3:胆怯易惊、烦躁、健忘;组4:未作分类;组5:急躁易怒、恐惧;组6:胆怯易惊、意志减退。(2)寒热、饮食症状有5个隐变量症状组合,根据症状,各组的内容如下:组1:口咽干燥、口渴喜饮;组2:未作分类;组3:口咽干燥;组4:手足心热、畏寒肢冷、自汗、烘热;组5:乏力、畏寒肢冷。(3)头面部症状有3个隐变量的症状组合,根据症状,各组的内容如下:组1:头昏、头重;组2:面色白;组3:头痛、面色黄、耳鸣。(4)胸腹躯体四肢症状有6个隐变量症状组合,根据症状,各组的内容如下:组1:憋气、气短;组2:未作分类;组3:心悸、腰膝酸软、太息、恶心纳呆、胸闷、胃脘胀满、腹胀、四肢困重;组4:气短、胃脘胀满、憋气、胸胁胀满;组5:腰膝酸软、四肢困重;组6:胃脘胀满。(5)睡眠和二便症状有4个隐变量症状组合,根据症状,各组的内容如下:组1:早醒不睡、大便溏;组2:大便溏;组3:多梦、易醒、早醒入睡;组4:睡眠少、大便粘滞、早醒不睡。(6)舌象症状有6个隐变量组合,根据舌象,各组的内容如下:组1:舌淡红、白苔;组2:苔色黄、舌红;组3:舌淡红、苔色黄;组4:白苔、紫舌、胖舌、舌淡白;组5:舌红、白苔;组6:黄白相间苔、舌苔厚。(7)脉象症状有4个隐变量组合,根据脉象,各组的内容如下:组1:脉细、无力眿,脉沉;组2:弦脉;组3:脉滑、有力脉、脉数;组4:脉沉、有力脉。在上述基础上,建立局部症状数据库,进行二次隐类分析,最后获得四个隐变量症状群,并结合中医理论进行初步诠释如下:(1)肝脾两虚胆怯易惊、意志减退、大便溏、面色白、舌红、苔色黄、脉弦;(2)肝郁化火、肝胃不和急躁易怒、恐惧、口咽干燥、憋气、气短、多梦、易醒、早醒入睡、舌红、苔色黄、脉弦;(3)肝火犯胃反应迟缓、思维迟缓、意志减退、悲观、烦躁、动作迟缓、优柔寡断、口咽干燥、口渴喜饮、头昏、头重、气短、胃脘胀满、憋气、胸胁胀满、睡眠少、大便粘滞、早醒不睡、舌红、苔白、脉细、无力脉、脉沉;(4)肾虚阳郁胆怯易惊、烦躁、健忘、乏力、畏寒肢冷、头昏、头重、腰膝酸软、四肢困重、多梦、易醒、早醒入睡、舌淡红、白苔、脉沉、有力脉。结论:1证候研究中常用数据分析方法的文献研究(1)基于大样本临床流行病学调查数据,进行无监督数据分析,已成为证候诊断的现代主流研究方向,目前常用的数据分析方法有聚类分析和因子分析,这些方法应用于证候研究,尚存在数据类型,应用方法等多方面的问题。对于每一种方法的应用要进行综合评价,并要根据证候数据的特点进行二次研究探索。(2)通过证候因子分析的文献研究,尝试从四方面评述因子分析应用在证候诊断的情况,包括变量矩阵、因子数量、因子提取方法和因子旋转方法,同时带出了几个应用技术上的问题:1.中医症状的分类变量是否可以应用在证候诊断中,简化后的相关系数是否适合应用于症状研究?2.以特征根值大于或等于1来决定因子数量是否适合?3.以最小因子数目来解释数据矩阵的因子提取方法是否符合中医理论?4.最常用的正交旋转方法是以因子之间不相关为假设,这也是否符合中医证候研究理论?在症状变量不符合因子分析的假设,数据变量前题验检的不理想和不符合的因子分析方法和因子数目准则都是说明因子分析不适合作为证候研究的数据分析方法。(3)通过证候聚类分析的文献研究,也发现数据分析应用的几个问题如下:1.系统聚类分析方法的统计量聚类是以距离和相关系数为主,两个都是处理连续变量,基本不符合中医的分类变量要求;2.计算距离的方法很多,得出的结果很不相同,在应用时我们应运用那种计算距离的方法?3.聚类分析是以聚类为主,缺乏了变量与变量之间的关系,这也不符合中医证候理论。综合以上几点,表明聚类分析不适用于中医证候研究。2基于隐类模型的抑郁症隐变量的分析(1)通过无监督的隐类分析方法,将抑郁症七组局部症状再各自分类,初步提取局部症状组合的隐变量,而当中隐类分析的变量要求是分类变量,这符合中医证候的分类要求。(2)通过无监督的隐类分析方法,初步提取抑郁症整体症状组合的隐变量,发现得出四个隐变量症状群,初步认为可代表四个证候。(3)通过隐类分析抑郁症的无监督数据发现,隐类分析的症状群分类与中医证候有相似之处,由局部到整体症状的隐类分析,更符合临床中医辨证思维。
其他文献
2019年3月21日,位于江苏响水的天嘉宜化工发生化学储罐爆炸事故,造成78人死亡、76人重伤。因涉特别重大爆炸事故,江苏响水天嘉宜化工有限公司(以下简称“天嘉宜化工”)已被吊
幽门螺杆菌(Helicobacter pylori,H.pylori)在胃内定植及其相关致病作用的发现是现代胃肠病学一个重要的里程碑.近30年的研究表明,许多上消化道疾病,如慢性胃炎、消化性溃疡、
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
在现代化社会的发展中,互联网技术已被应用到各个行业的发展中,使得人民群众的生产生活发生了很大变化,这就使得大数据技术应运而生,逐渐发展为大数据时代.大数据技术在企业
《了不起的盖茨比》是菲茨杰拉德的经典之作。该作品以20世纪20年代的纽约为背景,真实而生动地刻画了大都市纽约的城市风貌,展现了人们多种多样的生存状态。从城市书写出发,
炎症性肠病(inflammatory bowel disease,IBD)是一类病因未明的慢性肠道炎症疾病,其治疗一直未能达到理想的效果.随着对IBD发病机制的研究,针对其发病过程中不同靶点的生物制
《化工分析》是应用化工技术专业一门实践性很强的课程,文章以项目为载体,从教学分析、教学策略、教学过程、教学反思四个方面入手,将信息化技术融合项目化教学的整个过程,通
通过创新的方法制备聚苯乙烯(PS)胶体晶体,成功的制备出粒径在255nm左右的PS胶体晶体,并阐述了乳化剂用量对PS胶体晶体有序性排列的影响。用此PS胶体晶体为模板制备3DOM-SiO2材
南充市"春风行动"于今年1月起陆续开展,整个活动持续到3月底。活动中,全市开展现场招聘会80余场次,近800余家企业参加,提供近5.1万个就业岗位,基本做到国家规定的社会保险全面
全面建设小康社会,实现中华民族的伟大复兴,最关键的因素是人才;激烈的国际竞争中最根本的也是人才。这对于作为培养人才,尤其是培养党的社会主义事业接班人的主阵地高校来说