基于SOM的神经网络聚类方法在临床检验知识发现中的适用性研究

被引量 : 9次 | 上传用户:pxp99
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:临床检验是医生进行疾病诊断、制定治疗方案和评价治疗效果的基本手段之一。然而,有研究表明,目前临床上很多检验项目是不必要或者是不适当的。导致这种现象的原因有很多,其中一个主要原因是医生在临床检验决策时缺乏系统的知识支持。本课题针对这一具体问题展开研究,探索自组织映射(Self-organizing Maps,SOM)神经网络聚类在临床检验历史数据知识发现中的适用性,挖掘专家经验基础上的、能代表多数人意见的临床检验项目的应用规律(知识),以期为临床检验知识发现提供适宜的方法,为临床检验项目的合理选择和规范应用提供参考依据,为SOM神经网络聚类方法在医学领域相关研究中的应用提供新思路。方法:1.采用SQL查询语言,从西安市最大的两所三级甲等综合医院的医院信息系统和实验室信息系统的后台数据库中,提取出2009-2011年内科门诊患者的部分就诊数据,并对这些数据进行连接、转换、清洗、筛选。依据文献,选择患者年龄、性别、3年临床实验室检验项目数、接诊医生职称、付费方式、初步诊断特征、临床检验项目为聚类变量。2.从清洗、转换好的数据库中,提取出2009-2011年初步诊断特征为腹痛、发热、关节痛的5,756名内科门诊患者的聚类变量数据,建立SOM神经网络聚类模型和k-means聚类模型。采用不同参数、不同步长训练网络,确定SOM神经网络聚类的步长和神经元个数;依据SOM神经网络聚类数确定k-means聚类的类别数。采用X~2检验对每种模型中每类患者的性别、付费方式、接诊医师职称等特征的类间差异进行比较,采用X~2分割检验方法进一步对类间差异进行两两比较;采用单因素方差分析对每类患者的年龄、3年累计临床检验项目数等计量资料类间差异进行比较,采用SNK-q检验进一步对类间差异进行两两比较。同时,分别计算两种方法聚类结果的DBI指数(Davies–Bouldin Index),初步评价不同方法聚类结果的区分度和聚类效果。3.依据聚类结果,结合每类患者临床检验项目实际应用情况,确定每类患者的临床检验推荐方案(前5位)。邀请15名临床专家对两种模型聚类结果中每位患者采用该类临床检验推荐方案的合适性进行评价,评价结果分为合适或不合适,计算两种模型聚类结果的合适率,并计算SOM神经网络和k-means聚类结果的一致率和Kappa值,评价两模型聚类结果的一致性。依据比较和评价结果,综合分析k-means聚类模型和SOM神经网络聚类模型在临床检验项目知识发现中的适应性。4.从清洗、转换好的数据库中,提取出2009-2011年内科门诊患者中前十位初步诊断特征,分别为结缔组织病、强直性脊柱炎、呼吸道感染、慢性胃炎、癫痫、肝损害、乙型病毒性肝炎、前列腺炎、类风湿性关节炎和腹痛,共15,999名患者的聚类变量数据。以这十类患者的聚类变量数据建立SOM神经网络聚类模型。建模过程中采用不同的参数和步长训练网络,依据数据集聚簇分布特征图确定最终聚类类别数,依据数据集属性分类特征图确定“聪明属性”。采用检验对每种模型聚类结果中每类患者的性别、付费方式、接诊医师职称等特征的类间差异进行比较,采用单因素方差分析对每类患者的年龄、3年累计临床检验项目数等计量资料类间差异进行比较;采用条图对聚类结果进行可视化描述,概括每类患者的特征。5.计算SOM神经网络聚类结果的DBI指数,从定量角度评价SOM神经网络的聚类效果。依据聚类结果中每类患者临床检验项目的实际应用情况,以前5位检验项目为该类患者临床检验推荐方案;并在每类患者中抽取50例患者信息,反馈给20位临床专家,专家依据患者的性别、年龄、初步诊断特征评判每个患者应用其所在类临床检验推荐方案的合适性,判定结果为合适或不合适两类。计算每种聚类结果的合适率,评价聚类结果的临床意义。以上k-means聚类、方差分析、X~2检验均在SPSS16.0统计学软件中完成;SOM神经网络的建立在Matlab R2009b软件包中的SOM Tool Box工具箱基础上编程实现。结果:1.采用SOM神经网络对初步诊断特征为腹痛、发热、关节痛的5,756名患者进行聚类,聚类结果为3类。3类患者的性别、付费方式、接诊医师职称构成差异均具有统计学意义(P<0.05)。Ⅰ类患者中男性、非教授号、全自费患者所占比例较大,Ⅲ类患者中教授号比例较多;3类患者的年龄和3年累计临床检验项目数差异均具有统计学意义(P<0.05),且任意两类患者间差异均有统计学意义(P<0.05),Ⅱ类患者的年龄最大,平均为58.48±9.35岁,Ⅲ类患者的3年累计临床检验项目数最多,平均为2.87±1.85项。2.为方便与SOM神经网络聚类结果进行比较,定义k-means聚类数目为3,聚类得到的3类患者的性别、付费方式、接诊医师职称的构成差异均有统计学意义(P<0.05),Ⅰ类患者中男性、非教授号患者比例较大,Ⅲ类患者中女性比例较大;不同类患者间的年龄和3年累计临床检验项目数差异均具有统计学意义(P<0.05),任意两类间年龄差异均有统计学意义,Ⅲ类患者年龄最大,平均为61.81±8.47岁;除Ⅰ类和Ⅱ类间3年累计临床检验项目数差异有统计学意义外,其余两类间差异均无统计学意义(P>0.05)。3.通过SOM神经网络聚类和k-means聚类两种模型的聚类结果比较发现,SOM神经网络聚类各类中初步诊断特征分布比例差异最大,DBI指数最小(DBI=0.82),区分度更高。专家评价结果显示,SOM神经网络聚类结果总合适率为61.29%,k-means聚类结果总合适率为50.69%;SOM神经网络与k-means聚类结果一致率为77.87%,Kappa值为0.556。4.采用SOM神经网络对前十位临床初诊患者数据进行聚类,聚类结果数目为8类。对8类患者性别、接诊医生职称和付费方式的构成比较发现,各类患者间差异均具有统计学意义(P<0.05);对每类患者的年龄和3年累计临床检验项目数进行比较发现,各类患者间差异均具有统计学意义(P<0.05)。5.通过模型聚类结果比较发现,患者性别、年龄、3年累计临床检验项目数、初步诊断特征四个属性对聚类模型的贡献较大,为聚类的“聪明属性”。6.运用DBI指数对SOM神经网络聚类结果进行评价,DBI指数为0.86。专家对聚类结果概括出的每类患者的临床检验推荐方案评价结果显示,总合适率为76.4%。结论:1.在临床检验的数据挖掘中,SOM神经网络和k-means聚类结果一致性较好,但SOM神经网络聚类中各类特征更加明显,区分度和临床实际应用的合适率更高。因此,本研究认为SOM神经网络聚类的学习能力较k-means模型强,聚类效果更好,更适用于临床检验项目知识发现。2.患者性别、年龄、3年累计临床检验项目数和初步诊断特征对SOM神经网络聚类模型的贡献最大,临床医生在依据患者初步诊断特征进行临床检验项目选择时,应考虑患者的这些特征对临床检验项目的影响。3.SOM神经网络聚类结果符合临床实际,所概括出的每类患者临床检验推荐方案基本符合临床实际需求,具有一定的临床参考价值。
其他文献
随着行星着陆任务的深入,传统的导航方法已不能满足任务的需求。近年来随着计算机视觉技术的发展,学者们对视觉导航在行星着陆中的应用予以了充分的重视,本文对视觉导航算法的核
本文通过对我国房地产市场的现状及问题的考察,阐述了国家应从六个方面确立房地产市场的宏观调控目标及其相应的法律对策,包括对耕地占用面积的控制、把房地产开发控制在城市
中国的汉与六朝时期,日本和朝鲜都开始接受汉字、儒教、礼制,与中国一道构成了东亚世界。一方面,中国皇帝为巩固国内统治,需要利用周边民族的朝贡来提高自身权威;另一方面,由
<正>网龙再次将手中的好牌拱手让人,上一次是十年前。网龙总是能在不经意间拿到好牌,然后为自己换取未来。但好运气总会耗尽,兜售未来的网龙,如果不能找到下一张牌,那么就要
根本违约将合同后果与合同目的实现结合起来,以此作为确定违约严重性的依据,从而为确定解除合同的要件,限定法定解除权的行使奠定了基础。在一方违约以后通过根本违约制度限
本文根据《中华人民共和国监狱法》有关罪犯权利的规定,系统地阐述了我国关于罪犯人权的基本观点、立场、方针政策和做法,认为我国罪犯在监狱服刑期间,依法平等地享有广泛而
加速加载试验车是用于对试验道路面进行加载速度和载荷的机械车辆,可以模拟路面在长期经过汽车不同速度不同载荷下加压的受损情况以便研究路面的受损机理。传统的试验车控制采
消费者是人格形象时代变迁的产物 ,对这一问题的认识必须从人的历史演进中寻求答案。在资本主义发展之初 ,自然人的结合体尚未获得正统的主体地位 ,消费者缺乏赖以产生的社会
本课题研究并实现了智慧家庭服务中心系统,智慧家庭是依托当代科学技术的发展趋势,以符合人们的全新生活理念的需求而产生,是对未来生活方式的高品质诠释,研究智慧家庭同时也是把
随着数据通信技术的发展,数据采集技术已经在各个领域中得到广泛的应用尤其是在现代雷达采集系统中,采集存储器性能的好坏直接影响到整个系统的性能。现代雷达采集系统面临着高