论文部分内容阅读
随着健康体检业务的不断发展以及体检用户的不断增多,健康体检系统中积累了大量宝贵的数据。如何有效利用这些体检数据为医生和管理者提供决策支持成为相关机构面临的共同问题。本文针对此问题设计实现了一个健康体检数据分析系统。首先,引入数据仓库技术为健康体检数据分析提供了独立的环境,解决了健康体检数据存储和集成问题。通过健康体检数据仓库的维度建模过程,本文对健康体检数据建模涉及的事实、维度、粒度等进行了详细讨论。经过合理的模型构建,仓库数据被重新组织成了适于分析的结构。采用Shell和PL/SQL等高级脚本语言编码实现的ETL系统实现了每日数据的定时加载和更新,同时保证了最大的便捷性和灵活性。其次,为了实现健康体检数据的多维分析,使医生和管理者获得多角度分析关键指标的能力,本文引入了 OLAP技术。通过使用OLAP工具MSTR极大地简化了多维分析报表的开发。利用其提供的ROLAP服务器可以读取关系型数据仓库中的事实表和维度表,将相关数据表模型化成为一个统一的多维度模型。经过工具的配置可以定制多维模型中虚拟立方体的汇集计算结果,最终为医生和管理者提供健康体检数据多维分析报表服务。最后,本文探讨了健康风险评估的方法。通过引入数据挖掘技术中的分类技术,探索用户检验指标和检查结论之间的联系并建立相应的预测模型。文中选取决策树、朴素贝叶斯和支持向量机这三种常用的分类模型在真实数据上进行了实验,三种分类器的准确率都达到了 80%以上,证明了分类方法用于健康风险评估的可行性。此外,针对实验中健康体检数据集出现的非平衡性问题进行了讨论,最终选用数据预处理中的过采样方法对训练数据进行均衡。在对比实验中使用SMOTE算法对训练数据进行预处理之后,三种分类算法在总体分类准确率变化不明显的情况下对少数关注类的分类能力获得了显著提升,最终证明了过采样方法在健康体检数据集的不平衡性问题上应用的可行性。