论文部分内容阅读
随着移动互联网医疗时代的到来,增加了大数据的积累,而大数据的发展又促进了医疗的进步,如何将大数据与移动互联网医疗相结合是未来智能医疗领域发展的重中之重。本文将数据挖掘与移动医疗APP相结合,设计并实现了基于随机森林的心脏病预测平台,该平台围绕随机森林算法改进、平台架构设计与实现以及平台性能评估展开,主要工作和研究内容如下:(1)针对随机森林算法数据不平衡、个体分类器单一、大规模数据扩展性差等缺点,提出了三点改进方案——1、利用Bootstrap对数据集进行多层次抽取确保数据的平衡;2、采用聚类思想对个体分类器进行聚类分簇,从每个簇中选出一个代表性分类器组成多样性森林;3、借助Hadoop的分布式计算能力实现随机森林的并行化构建。依据提出的方案设计了 BDRF(Balanced And Diversity Random Forest)算法。(2)对平台进行需求分析,并给出具体设计方案。APP展示平台完成与业务功能对应的原型界面设计;后台服务器主要完成SSH(Spring+ SpringMVC +Hibernate)框架逻辑设计、数据库方案设计以及心脏病预测模型中HDFS与MySQL数据整合设计。其中后台逻辑设计采用MVC模式,降低层与层之间的耦合,便于平台业务功能的扩展;HDFS与MySQL通过sqoop(SQL-to-Hadoop)进行数据互导,数据统一存入MySQL,方便数据的查询和管理工作。(3)实现平台各个业务模块,对其实现效果进行展示,并依据UCI(University of California Irvine)心脏病数据集分别对决策树算法、随机森林算法和BDRF算法进行建模分析,验证本文心脏病预测平台的有效性和性能的提升。