基于Gradient Boosting算法的海量健康数据挖掘研究与应用

来源 :北京邮电大学 | 被引量 : 8次 | 上传用户:junhao1987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大健康时代的到来让我们重新观察人类身处的健康环境,也越来越关注生活质量和身体健康,然而各种现代病却在不知不觉地向我们袭来。随着大数据、数据挖掘、人工智能领域的飞速发展,尤其是“互联网+医疗”概念的提出,人们可以利用数据挖掘技术探查隐藏在健康大数据背后的重要信息,为人类免受疾病困扰提供新的解决途径。肿瘤、癌症等疾病发病迅速,前期症状不明显,导致治愈率低,而预防肿瘤、癌症最有效的方式是做到“早发现、早治疗”。为此,本文基于健康体检数据(血常规、尿常规、问卷信息等),运用以Gradient Boosting为主的数据挖掘分类算法,构造重大疾病风险筛查和早期诊断模型,为疾病的确诊、治疗提供依据。论文主要研究Gradient Boosting算法,肝部肿瘤筛查模型的训练方法,梯度提升算法并行计算的实现和评估。首先对集成学习中Gradient Boosting算法进行研究,并提出适用于健康数据的特征选择和样本平衡方案,在处理健康数据样本非均衡的问题时,使用基于SMOTE的过采样方式,并调整验证评估指标;然后针对肝部肿瘤筛查场景,设计训练Gradient Boosting分类模型算法,提出完整的筛查模型效果反馈与优化方案;最后本文基于流行的XGBoost平台实现了 Gradient Boosting算法在疾病风险筛查模型中的并行化改造,并验证实验结果,对比运行时间等。论文验证了 Gradient Boosting算法在健康体检数据中能够达到重大疾病筛查和早期诊断的目的,该算法在相同数据集上比随机森林和逻辑回归表现优秀。还使用XGBoost平台帮助Gradient Boosting算法实现并行化计算,能够有效应对海量健康数据挖掘的需要。研究成果对于健康医疗、疾病预防有积极的意义。
其他文献
中国画有五种境界:一曰形,二曰神,三曰道,四曰教,五曰无。
根据洛河流域地貌南北纵向区域分布规律,并参考张宗祜先生(1986)编制的"中国黄土高原地貌类型图",将洛河流域由南至北依次划分为洛川黄土塬区、甘泉一志丹黄土梁状(为主)丘陵沟壑区
源自中药的植物雌激素是天然的杂环多酚类化合物,能够与雌激素核受体或膜受体结合发挥作用,被称为选择性雌激素受体调节剂。植物雌激素的药理作用体现在治疗骨质疏松、心血管
期刊
随着现代信息技术的迅猛发展,网络小说也成为文学的重要组成部分,无论是语言还是文体,都在一定程度上影响着学生,使他们的心理状态及自我需要得到了真实反映,通过对网络小说
带“得”程度补语句是现代汉语中常见而重要的句式,其结构和语义上的特殊性引起了汉语语法学界的广泛关注。学者们从句法、语义、语用和认知等角度对这一句式进行了细致而深入
<正> 【美国《核新闻》1991年6月号第67页报道】橡树岭国家实验室隶属于美国能源部。它的简要情况如下: 运营者:根据一份以奖励为基础的合同,由Maritin Mariette能源系统公司
目的分析丹参注射液辅助治疗Ⅱ型呼吸衰竭的临床疗效及其对动脉血气分析指标、氧化应激反应、炎性反应、血管内皮功能的影响。方法选取2015年2月—2018年2月保定市第一中医院
学生之间是存在较大差距的,在智力上,农村学校的学生差距更大。这些差异性导致了学生们的学习结果也大相径庭。可是,目前学校和教师大都是采用“一刀切”的教学方法 ,这不但
目的:(1)研究BMP-2在正常甲状腺组织、结节性甲状腺肿及分化型甲状腺癌中的表达特点;(2)研究钙化组甲状腺肿瘤与无钙化组甲状腺肿瘤及正常甲状腺组织中BMP-2的表达差异,并分