论文部分内容阅读
近年来,随着计算机技术在医疗卫生领域的飞速发展,使得医疗信息系统、疾病诊断系统、医学影像系统等系统不仅在大型综合性医院应用,由此向下直至卫生院的各级别医院也应用广泛,日积月累,产生了大量的医疗卫生数据。我国自2003年起逐步实施了新型农村合作医疗制度,到2010年逐步实现基本覆盖全国农村居民,近几年各级政府更是加大了对新农合的投入力度。但是,医疗资源的配置仍然存在不公平性,城乡医疗卫生水平也有着较大差距。通过数据挖掘技术与医疗卫生领域相结合来探究一种适用于新农合费用数据的数据挖掘方法,讨论医疗卫生领域常用的数据处理方法的不足,并进行分析比较,具有一定的现实意义与研究意义。论文研究比较既有四分位数处理方法并尝试使用数据挖掘算法对数据进行处理,根据预测精度进行对比,并使用可视化技术呈现。采集的医疗费用原始数据有区别于其他数据如真实性、隐私性、多样性、不完整性、冗余性等的特点,为此本研究在挖掘前期进行了大量反复的数据规约、数据变换、异常错误处理等处理流程。在形成统一的数据格式之后,对数据中的8个系统疾病分5个级别医院进行了初步统计其均值、方差、四分位数等工作。之后根据统计的结果分析了其不足以及对挖掘的帮助,在指出医疗费用数据成偏态分布的同时指出了一些其他研究者采用四分位数分类法或仅凭经验来判定医疗费用高低的不科学性和不合理性。为此本文研究使用基于K-means聚类算法的处理技术,K-means是基于自学习的非监督聚类算法,用来探索和特性化费用数据集,该算法不易受数据分布特征的影响同时又兼顾数据本身的特点。使用C4.5决策树算法对经过K-means算法处理过的数据进行医疗费用影响因素的分析,根据算法的预测精度得出本文的结论:K-means算法在处理血液病医疗费用数据时的优势明显大于基于四分位数数的处理方法。之后介绍了医疗数据的可视化平台,与一般统计可视化展示不同该平台具有动态展示、可交互、进行简单计算等的功能。文章最后对形成医疗费用影响因素的可能原因给出了解释。