【摘 要】
:
不平衡数据集的分类问题是实际业务场景中最重要的建模问题之一。传统的机器学习分类算法大多只面向于平衡数据集,在训练过程中仅重视模型对样本总体的分类效果,当其应用于不平衡数据集时,会倾向于将样本判定为占比更大的类别,从而对少数类样本的识别能力下降。而事实上,实际中的数据集大部分是不均衡的,并且少数类样本被错误分类的成本远高于多数类样本。因此,结合当下重点关注的心脏病预测课题,对不平衡数据集的分类问题进
论文部分内容阅读
不平衡数据集的分类问题是实际业务场景中最重要的建模问题之一。传统的机器学习分类算法大多只面向于平衡数据集,在训练过程中仅重视模型对样本总体的分类效果,当其应用于不平衡数据集时,会倾向于将样本判定为占比更大的类别,从而对少数类样本的识别能力下降。而事实上,实际中的数据集大部分是不均衡的,并且少数类样本被错误分类的成本远高于多数类样本。因此,结合当下重点关注的心脏病预测课题,对不平衡数据集的分类问题进行研究是非常必要且具有实际意义的。本文以现有的主要采样算法为理论基础,提出了两种改进的采样算法,即DBSMOTE算法和KP-SMOTE算法。本文以采样算法和分类算法的组合作为对比对象,分别对比了各个算法组合在不同分类模型评价指标上的表现,旨在探索出各评价指标下最优的数据集采样与分类模型构建的算法组合,更加准确地对成年人患心脏病的状况进行预测。经过对个体心脏病关键指标数据集的实证分析,发现肥胖、吸烟、饮酒和其他重要疾病对心脏病的发病机制存在促进作用,而锻炼以及良好的身心状态则可以降低心脏病的发病概率。此外,对于所有评价指标,不同分类算法带来的差异都要大于采样算法。并且,若看重准确率,则随机过采样与随机森林的算法组合最优;若综合考虑精确率、召回率、F1 score或看重Kappa系数,则SVM-DBSMOTE采样与逻辑回归的算法组合最优;若看重AUC值,则随机过采样与Ada Boost的算法组合最优。
其他文献
由于我国人口基数庞大,地区之间经济发展水平差异明显,人均医疗资源十分有限且分布不均衡,一方面患者面临“就医难、挂号难、预约难”问题,另一方面医院存在“病源不足,资源闲置”的问题。如何在医患之间建立起有效的信息交流平台,解决患者和医院面临的问题,不仅会产生经济效益,而且会带来积极的社会效应。因此,利用软件工程技术,开发一个功能完备、服务患者和医院的网上预约挂号系统具有重要意义。网上预约挂号系统分为两
随着大数据时代的到来,如何对海量数据进行处理、分析,从而获取商业价值,已经成为了越来越多公司重点关注的问题,同时也给任务调度带来了不少挑战。首先,在大数据处理中,由于数据处理量极大,单机处理会给企业带来巨大的时间成本;其次,在单个数据处理的工作流中,可能存在工作流内部各个任务之间有上下游依赖的情况,如果仅通过传统的定时任务库如Quartz来处理,则十分麻烦,难以掌控;另外,虽然有诸如Airflow
<正>1 行业面临的问题1.1 政策与市场2020年,随着中美第一阶段贸易协定的签署,大豆供应回归正常状态。中国养殖业逐渐走出非洲猪瘟的影响,养殖存栏逐步恢复,中国大豆进口需求明显上升,同比增长13.4%。但是面对突如其来的新冠肺炎疫情,油脂油料的国内外供应链、油脂需求受到严峻考验。1.1.1 全球供应链受到新冠肺炎疫情的严峻考验新冠肺炎疫情全球蔓延致使全球经济衰退情况加剧,全球贸易保护的情况也进
随着互联网向医疗领域融合发展,在线问诊因为其方便性、安全性已成为居民的常用就医方式,因此积累了大量的在线医疗数据。命名实体识别是实现这种非结构化文本提炼的第一步。目前的医疗命名实体识别大多根据医疗书籍、电子病历等规范化文本展开研究,缺乏专门对口语化、信息间断的在线问诊记录的命名实体识别研究。本文基于Mac BERT与条件随机场模型,研究融入词信息的在线问诊记录中临床关键特征识别,并进行阴阳性判别。
近年来,随着人口老龄化的加剧和社会生存压力的增大,心血管疾病的发病率逐年上升,急性心肌梗塞的死亡率迅速上升,大量患者出现并发症。研究表明,优质护理可以有效降低心肌梗塞恢复期并发症的发生率。因此,提前预测心肌梗塞患者可能发生的并发症,以便及时实施必要的预防措施,是一项极为重要的研究。本文首先介绍了国内外学者在疾病预测领域的相关研究,尤其是机器学习算法在对各类疾病的早期预测上的应用成果。本文详细介绍了
心率是人体最重要的生理参数之一,对个体的健康状态临床评估和疾病风险管控具有重要意义。心冲击信号(Ballistocardiogram,BCG)的心率监测技术相比于传统侵入式方法(如侵入式血压)和其他非侵入式方法(如心电图、光体积变化描记图),具有易操作、易携带等优点。近年来卷积神经网络在医学影像的应用中凸显出巨大潜力,神经网络可以学习相关特征,在更复杂的端到端学习任务中重用相同的架构,这也为信号处
由于云计算、机器学习等科学技术的蓬勃发展,各类信息的数据量呈爆炸式增长。海量的数据足以支撑各类应用去做信息的推荐功能,但是目前应用的推荐准确度仍有很大的提升空间。音乐经常被当做是一种解压和娱乐的方式,一个功能简单或者推荐度不高的听歌系统很难满足用户千人千面的需求,用户粘性也不会很高。因此开发一个基于良好推荐算法的音乐系统不仅可以满足人们缓解压力的需求,还能够因人而异,准确地预测出用户的喜好并以合适
随着互联网信息技术的飞速发展,网络信息数据呈现出几何级别的爆炸增长态势,由此引发“信息过载”的问题。个性化的推荐系统能很好的解决这一问题。在推荐系统中,推荐算法的选择决定了推荐系统的质量。在工业级别的推荐系统中,推荐算法分为两步,分别是召回层和排序层。召回层高效快速的从数以亿计的原始物品库中选出用户感兴趣的几百个物品,排序层对挑选出的候选物品集进行精准排序以推荐给每个用户。本文主要研究召回层算法和
全面推进中国式现代化是新时代新征程的伟大事业,则“税收现代化服务中国式现代化”必然是当前税收战线的首要任务。在中国特色社会主义持续发展中,税收始终是中国特色社会主义税收,税收现代化始终是中国特色税收现代化。因此讨论税收现代化服务中国式现代化,就是讨论中国特色税收现代化服务中国式现代化,就是讨论两者的辩证关系、时代内涵与实践途径。基于这一判断,本文聚焦四个方面展开讨论:一是在中国特色社会主义新发展中
该研究采用传统分离纯化技术对不同储存期(4~7个月)的宋河中高温大曲中的霉菌进行分离纯化,并通过形态学观察和分子生物学技术对其霉菌进行鉴定,结合其理化指标检测结果确定宋河中高温大曲的最佳储存时间。结果表明,从不同储存期的宋河中高温大曲中共分离得到22株霉菌,其中,储存期为4、5、6个月的宋河中高温大曲分别获得6株、4株、12株霉菌,经鉴定为5个属的14种霉菌,其中,枝孢菌属(Cladosporiu