改进的CatBoost算法在妊娠糖尿病诊断中的应用研究

来源 :华中农业大学 | 被引量 : 0次 | 上传用户:fkjunjin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了积极应对人口老龄化,我国实施了一对夫妻可以生育三个子女的政策,由此高龄产妇人数也逐年增多。同时,由于怀孕期间往往需要补充更多的营养,以及体内激素变化等原因,导致妊娠糖尿病发生率呈现增长趋势。妊娠糖尿病是围生期婴儿出现死亡最重要的原因之一,因此实现早期筛查与准确诊断,具有重要的应用价值。近年来智慧医疗和人工智能技术不断进步,许多学者致力于研究能够梳理复杂医学数据间关系的机器学习技术。但是,目前将机器学习算法应用到医疗疾病诊断领域仍存在许多问题,如因特征降维方法单一而导致无法找到影响效果较大的有效特征指标,或因医疗样本数据相对较少使得医学诊断结果准确率相对偏低等。本文将阿里天池平台公布的某医院真实数据作为示例,主要工作内容如下:第一,医疗数据集往往具有维度高,样本量小等特点。本文首先使用多重插补填充缺失值,利用箱线图检测异常值,把数据集进行标准化,确保后续实验能在均衡平滑数据集上进行。第二,使用互信息、混合特征选择和层次聚类的方法对特征进行逐层选择,最终从原始84个变量中,筛选出13个对妊娠糖尿病能有效决策的变量,达到减少计算开支的目的,对于预防和治疗该疾病具有一定的参考价值。第三,在算法层面,本文选用了更适合小样本分类的Cat Boost模型,并在此基础上结合以高斯过程为代理函数的贝叶斯优化算法提出了GB-Cat Boost模型,避免陷入局部最优。此外将优化思想推及到随机森林、XGBoost和Ada Boost机器学习算法中,使用F1度量值对四种模型优化前后进行对比,分别提升了1.4%,0.3%,0.6%和2.7%,因此分类器性能有一定增强。最后引入随机森林中双重随机性原理,把改进后的模型作为基分类器,根据误差计算加权值,进行投票建立新的融合算法GB-Cat RF,通过F1评价指标考量,精度相比原始Cat Boost算法提高了3.6%。结果表明相较于其他基础分类器,GB-Cat RF算法的分类性能更优,在妊娠糖尿病数据集上表现最好,可以为医生对该病的诊断提供有效参考。
其他文献
随着我国经济的发展,各大商业银行的信贷业务也开始发展壮大。但由于存在一些未考虑自身还款能力或者恶意欺诈贷款的用户,会使得商业银行放出的贷款无法收回,从而造成商业银行收益降低甚至亏损。所以在保证“好用户”流失没那么多的基础上,精准识别出潜在违约用户并降低商业银行的不良贷款率,对商业银行信贷业务未来的健康发展是十分重要的。对此,本文使用来自多家商业银行信贷用户的贷款数据,运用集成学习的思想建立出一个可
学位
晚明的中国画坛涌现了许多杰出的、有个性的文人画家、职业画家,他们不求步履前人风格,借古开今,形成自己独特的艺术面貌。在山水画领域,蓝瑛的“没骨山水”在明末画坛独树一帜,而其中最大的特点,莫过于蓝瑛的色彩样式。蓝瑛的设色山水画中,以其晚年形成的“没骨山水”用色最为奇特,他的色彩样式突破了前人束缚,在画中融入了自己的色彩偏好,在色彩语言的运用上别开生面地将古人的设色之法重塑再造,形成了有别于董其昌的另
学位
信用卡是现代银行业务体系的重要组成部分,能够在一定程度上减少社会的交易成本,促进经济发展。经过数十年的高速扩张,我国信用卡市场逐渐趋近饱和,发卡量增速明显放缓,存量客户经营将成为银行未来发展的主要方向。因此做好存量客户关系管理工作,及时识别出有流失倾向的客户显得十分重要。一般而言,流失的信用卡客户仅为所有客户中的一小部分,信用卡客户流失数据集因此呈现不平衡特性。在以往的研究中,对于信用卡客户流失的
学位
海伦·弗兰肯塞勒(Helen Frankenthaler,1928-2011)是美国最具代表性的抽象表现主义艺术家之一,以独创的“浸泡染色”技法和色彩实验闻名于画坛。其60余年的艺术生涯始终致力于色彩媒介的探索,被认为是色域绘画领域的主要代表人物。弗兰肯塞勒的色彩实验旨在自发性与自控型、开放性与复杂性之间取得平衡,运用偶然性法则及色彩场域建构人化的自然。她的抽象绘画实验消融了早期抽象表现主义绘画中
学位
汉代的瓦当书法因其装饰美而成为建筑的点睛之笔。瓦当书法装饰美的形成有三个原因:首先,瓦当书法和统治阶级使用的建筑之间存在天然而密切的联系,瓦当上的文字内容体现了王权意志、标明了建筑名称、寄托了思想情感,其书法风格也与建筑属性相配适,隐含着对瓦当书法装饰美的诉求;其次,瓦当书法由书吏在柔软的陶土上书写,然后经由工匠摹刻、烧制完成,需要经过书写和制作两个环节,较其他书法形式更为复杂,这种先书后制的流程
学位
摄影是关乎时间与空间的艺术,其最基本的属性是时间切割性和原真复制性,通过历代摄影家对摄影本体美学的探索,具有社会与艺术双重价值的纪实性摄影逐渐发展成摄影艺术的核心组成部分。纪实性摄影是基于摄影对时间与空间的记录功能所产生的艺术形式,是摄影的根本属性和内在需求。“纪实”不是固定的样式或套路,而是一种摄影的态度和创作方法。从早期的文献档案摄影,到社会性纪实,再到二战后的个人化纪实,纪实性摄影随着社会的
学位
本文通过梳理数字雕塑的发展脉络,分析当代雕塑创作中数字技术的应用案例,总结数字技术对传统雕塑创作的影响,以及在雕塑领域的创作优势。在当代雕塑领域应用的各个方面,分多个层次对比出数字雕塑相较于传统泥塑制作的优势、对创作方式改变、观念的革新、与雕塑理论的发展等时代意义。数字雕塑因创作空间的虚拟性、独特的存在方式、数字式的创作材料等特性,提高了制作的效率,开拓了艺术家雕塑创作的全新视野,也带给观众不同以
学位
大数据时代下,机器学习被广泛运用到处理各种分类预测问题中。保险交叉销售预测可视为一个二分类问题,即客户对保险交叉销售产品感兴趣和不感兴趣两种。通过建立一个快速准确的分类模型来预测客户对保险交叉销售产品是否感兴趣,有助于保险公司精准识别投保客户群体,大幅降低保险公司搜寻客户的时间和费用成本,增加公司利润。因此,运用机器学习方法来建立一个适合保险交叉销售数据的预测模型对保险公司来说具有重要的现实意义。
学位
传统高温合金材料的开发是根据生产经验来设计合金的元素成分和工艺参数。高温合金制备成形后,通过拉伸测试和硬度测试等实验方法测定该合金的性能,然后不断重复上述步骤来确定最好的元素成分和工艺参数,此过程中存在成功率低、时间消耗大、计算成本高等诸多问题。近年来,以数据驱动的机器学习方法已成功地应用于材料性能预测、新材料发现以及其他用途,节省实验成本和时间消耗,推动高温合金材料的发展。但获取数据需要大量投入
学位
在对变量和响应之间的关系进行建模前,常常会尽可能全面地收集变量。此过程易引入无效变量,从而导致变量维数过高,提升建模难度。变量选择策略通过筛选有效变量来提升模型的计算便利性和可解释性,在统计和机器学习领域引起广泛关注。已有的变量选择算法主要可分为三大类:基于稀疏正则的算法、基于多重假设检验的算法和基于Knockoff框架的算法。其中基于Knockoff框架的算法能保障变量选择错误发现率(False
学位