论文部分内容阅读
研究表明,高血压、糖尿病等慢性疾病及其并发症给人类健康和社会发展带来了沉重负担,做好疾病预防和治疗刻不容缓。由于发病机制复杂可变,很难事先做出准确诊断。但其发生和发展有一定规律可循,通过对患者状况的评估,采取有针对性的干预措施,可以有效降低疾病的危害性。因此从预防医学的角度,有必要借助数据挖掘技术建立慢病分类决策模型,辅助医生进行诊断和临床指导。然而,随着医疗数据的爆发式增长,现有的方法和技术都可能不再适用,可能需要考虑借助Hadoop这样的分布式环境及相关技术。总之,利用海量信息为防治慢病提供科学依据,是本论文的研究目的和意义。论文研究工作围绕慢病数据挖掘方案的设计,算法的选择、改进、并行化和性能评估,以及图形用户界面的设计与实现展开。针对高血压和2型糖尿病,依据权威医学指南设计了数据挖掘方案和必要的输入输出参数;选择C4.5决策树算法进行了提高稳定性和扩展性方面的改进和改造,用Java语言分别实现了融合Bagging的BCTree算法和基于MapReduce的MRC4.5算法;结合真实的慢病数据,验证了慢病数据挖掘方案的可行性和算法性能的提升;提出了海量慢病挖掘系统架构,开发了WeHealth医疗数据挖掘平台,完成了功能界面的设计实现、慢病分类决策算法的集成和模型的可视化。论文将复杂的医学诊断、预后评估和临床决策过程转化为清晰的、可编程实现的分类决策流程,所设计的数据挖掘方案的可行性得到验证。和C4.5算法相比,BCTree算法的准确度、敏感度有所提高,而MRC4.5算法在伸缩性和加速比实验中也体现了对海量数据处理的适应性。所开发的数据挖掘客户端软件具有友好的图形用户界面,且能很好地应用于海量医疗数据的挖掘任务。以上慢数据挖掘方案、算法和软件等研究成果进一步完善后,可用于慢病的诊断和临床指导,对慢病防治有一定的意义。