数据挖掘在医疗信息分析中的研究与应用

被引量 : 0次 | 上传用户:juyang0303
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术在商业方面应用较早,目前已经成为电子商务中的关键技术。由于数据挖掘在开发信息资源方面的优越性,数据挖掘已逐步推广到保险、医疗、制造业和电信等各个行业。国家军字一号医院信息系统在近7年时间里,已在军队、武警、地方的近500所医院推广使用。随着时间的推移,医院的业务数据正通过不同的途径源源不断的汇入服务器数据库中,其数据量以每日成百上千万条记录的速度快速增长。如何有效地利用这些海量的医疗信息,让“信息”变成“知识”,较好的办法是借助数据挖掘技术对医疗数据进行分析。本文选取了新桥医院最近三年内的冠心病病人的基本信息和费用信息进行数据挖掘,以建立医疗费用的分类模型。由于各种原因,数据中存在各种程度的缺失。为了提高数据挖掘的效率和精确度,需要采取数据填补技术对缺失数据进行填补。本文在介绍现有的缺失值处理技术和对比各种算法的优劣的基础上,通过实验证实了多重填补法有较好的填补性能,故采用多重填补法对缺失数据进行填补。本文介绍了多种数据挖掘算法。因为决策树是以实例为基础的归纳学习算法,它着眼于从一组无次序、无规则的事例中推理出决策树表示形式的分类规则,在对比适用性以后,决定采用决策树算法作为核心的数据挖掘算法进行医疗数据挖掘。在决策树的生成过程中,测试属性的选择对决策树的优劣起着重要的作用。在测试属性的选择方面,本文首先分析了利用条件属性对样本集进行划分,得到正确划分的赞同度。利用赞同度可以找到对正确决策贡献最大的属性。以该度量为启发式信息,提出了一种基于赞同度的决策树生成算法。赞同度决策树采用阈值预剪枝作为剪枝方法。当叶子结点的样本数量达不到某个设定阈值时,对该叶子结点所在的最小子树进行剪枝,保留该叶子结点的父结点为新的叶子结点。阈值预剪枝虽然可能得不到样本量较小的事例规则,但采用阈值预剪枝不必生成整棵决策树,且算法相对简单,效率很高。对比CHAID,CART和QUEST算法生成的决策树,利用赞同度算法得到的决策树规模适中,分类精度和预测精度有了一定的提高。
其他文献
石灰是冶金行业中的重要辅助原料。炼钢技术突飞猛进的发展对炼钢脱硫用石灰提出了新的更高的要求,炼铁原料熟料化,要求提高烧结矿的质量,对烧结用石灰的质量也提出了新的要
目前,多数高功率微波源(如虚阴极振荡器、相对论返波管、磁绝缘线振荡器等)产生的微波模式都为旋转轴对称模,如圆波导TM01和同轴TEM模等。这些模式若直接发射或用于驱动一些传
目的探讨促红细胞生成素(EPO)对急性脊髓损伤大鼠运动功能恢复的影响。方法计算机检索PubMed、Embase、Cochrane及中国生物医学数据库、维普信息数据库、中国知网及万方数据
遗址文化遗产资源作为一种准公共产品,具有文化价值,又具有经济价值。政府对于这种特殊的准公共产品,既要严格保护,又要开发、利用。陕西省遗址文化遗产资源管理模式在不同时期都
20世纪90年代,全球兴起了一股双边自由贸易热,越来越多的国家选择通过签订双边自由贸易协定构建双边自由贸易区来实现自由贸易。在此之前,历史上曾两度出现过双边自由贸易热,
跨文化交流要求语言使用者除了掌握足够的目标语语言知识,还要具有必要的语用能力。然而,在过去的几十年里由于受到结构主义的影响,中国的英语教学或多或少地忽略了英语学习者的
民营经济的出现是中国经济改革和发展中最亮丽的一道风景线。20多年来,民营经济的发展从无到有、从小到大、从弱到强,撑起了国民经济的半壁江山。民营经济的地位也由过去的“
《学徒》(又译《飞黄腾达》)是由马克·伯奈特制片公司和特朗普制片公司联合制作的一档没有固定剧本的系列真人秀节目,播出平台是美国全国广播公司电视网。2004年1月8号开播
中国医学源远流长,其学术传千载而不衰,其统绪历百世而未坠。在中医学术的传承中,医学典籍的传授发挥了不可替代的关键作用。对中医典籍的整理研习,也成为传承中医学术的重要方式
直接数字频率合成(DDS)技术是一种先进的电路结构,具有在全数字下对输出信号频率进行精确而快速的控制,DDS技术还在解决输出信号频率增量选择方面具有很好的应用,DDS所产生的信