论文部分内容阅读
大健康时代的到来让我们重新观察人类身处的健康环境,也越来越关注生活质量和身体健康,然而各种现代病却在不知不觉地向我们袭来。随着大数据、数据挖掘、人工智能领域的飞速发展,尤其是“互联网+医疗”概念的提出,人们可以利用数据挖掘技术探查隐藏在健康大数据背后的重要信息,为人类免受疾病困扰提供新的解决途径。肿瘤、癌症等疾病发病迅速,前期症状不明显,导致治愈率低,而预防肿瘤、癌症最有效的方式是做到“早发现、早治疗”。为此,本文基于健康体检数据(血常规、尿常规、问卷信息等),运用以Gradient Boosting为主的数据挖掘分类算法,构造重大疾病风险筛查和早期诊断模型,为疾病的确诊、治疗提供依据。论文主要研究Gradient Boosting算法,肝部肿瘤筛查模型的训练方法,梯度提升算法并行计算的实现和评估。首先对集成学习中Gradient Boosting算法进行研究,并提出适用于健康数据的特征选择和样本平衡方案,在处理健康数据样本非均衡的问题时,使用基于SMOTE的过采样方式,并调整验证评估指标;然后针对肝部肿瘤筛查场景,设计训练Gradient Boosting分类模型算法,提出完整的筛查模型效果反馈与优化方案;最后本文基于流行的XGBoost平台实现了 Gradient Boosting算法在疾病风险筛查模型中的并行化改造,并验证实验结果,对比运行时间等。论文验证了 Gradient Boosting算法在健康体检数据中能够达到重大疾病筛查和早期诊断的目的,该算法在相同数据集上比随机森林和逻辑回归表现优秀。还使用XGBoost平台帮助Gradient Boosting算法实现并行化计算,能够有效应对海量健康数据挖掘的需要。研究成果对于健康医疗、疾病预防有积极的意义。