【摘 要】
:
近年来信息化技术、大数据技术、机器学习得到了长足的发展,健康中国的概念也逐渐得到了普及,大量丰富的医疗数据可以提供潜在的有价值的信息,将机器学习中的方法运用到医疗数据集中逐渐地成为研究热点,在一定程度上可以帮助相关医护人员提高疾病诊断的效率、减轻患者的一些治疗痛苦。医疗数据集可能会因为数据收集人员的操作失误或者是测量技术的有限而出现缺失值的情况,因此,本文主要为了解决医疗数据集中存在的缺失值的问题
论文部分内容阅读
近年来信息化技术、大数据技术、机器学习得到了长足的发展,健康中国的概念也逐渐得到了普及,大量丰富的医疗数据可以提供潜在的有价值的信息,将机器学习中的方法运用到医疗数据集中逐渐地成为研究热点,在一定程度上可以帮助相关医护人员提高疾病诊断的效率、减轻患者的一些治疗痛苦。医疗数据集可能会因为数据收集人员的操作失误或者是测量技术的有限而出现缺失值的情况,因此,本文主要为了解决医疗数据集中存在的缺失值的问题,选择几种合理的缺失值填补法来填补医疗数据集中的缺失值,然后使用机器学习中的分类算法来建立合适的模型帮助实现癫痫患者发作的识别诊断问题。首先,本文介绍了几种处理数据集中含有缺失值的方法,有均值填补法、众数或者中位数填补法、K最近邻填补法等经典的填补方法,指出各个填补算法目前存在的优缺点。然后基于对数据集中各个特征属性的相关程度,本文提出一种新的距离度量的方式,主要是计算各个特征之间的皮尔逊相关系数,将其作为一种权重的形式加入到欧氏距离的计算方法中,改进了K最近邻填补算法的距离度量方式,同时由于K值的不确定性,本文改变了K最近邻填补法中的K值选取方式,设置一个比例系数,提取在比例系数内的K个最近的样本。然后,本文在医疗数据集上进行实验验证和结果分析,经过包含缺失值处理、异常值处理、归一化处理的数据预处理方法,采用三种不同的特征选择和模型结合的方式建立合适的癫痫患者识别模型,主要有单变量特征选择和随机森林结合的算法、递归特征选择和随机森林结合的算法和支持向量机算法,综合比较分析三种模型的评价指标,实验结果显示支持向量机模型在精度、查准率、查全率、F1值、AUC值等方面都高于其他两个算法模型的效果。最后,虽然本文只是研究了医疗数据集上的缺失值处理和分类问题,但是我们可以将这些处理缺失值的方法运用到其他的数据集缺失问题中,对于数据集中的缺失值进行合理有效地处理可以有助于我们深入挖掘出数据集中的潜在信息、提高对数据集的利用效率。
其他文献
为探究不同品种鲜食糯玉米采后贮藏品质及抗氧化酶活性变化规律,选用京科糯2000、京科糯768以及农科糯336为材料,研究其在20 ℃常温贮藏条件下感官品质、硬度、失重率、色泽、Vc、可溶性固形物、糖类物质、丙二醛含量和抗氧化酶活性的变化规律。结果表明:随着贮藏天数的延长,不同品种鲜食糯玉米均出现不同程度的籽粒失水皱缩、风味散失、光泽和甜度下降等现象,京科糯768表面劣变最为严重,其次是农科糯336
<正>极值点偏移是指在函数极值点的左右两侧,由于函数值的增减速度不同,导致函数图像不对称,该类问题成为近几年高考中的热点问题.经过一轮复习以后,学生能够处理简单的对称问题,如证明x1+x2>a,x1x2>a(a为常数)等,但针对非对称结构、复杂结构、含参不等式证明等问题时,却无从下手.为此,笔者将该类问题进行归纳总结,与大家一起分享.
<正>2022年高考数学试题聚焦对“四基”“四能”与数学核心素养的考查,试题力求反映数学的本质特征,要求考生在解题时更多地关注数学内容的关联性与综合性,注重解题过程中数学思想(如数形结合思想、化归与转换思想、方程思想与换元思想)的运用.2022年全国乙卷理科第16题是一道突出“综合性”考查要求的导数应用试题,本文以此题为例,就导数研究函数的极值、最值问题中的应用进行研究及变式探究,与大家分享、交流
新媒体艺术是一门集人文学科、社会学科和自然科学三者为一体的综合性学科,其艺术形式涵盖了很多方面。目前,新媒体艺术作为一种新型的科技与艺术相结合的手段逐渐介入城市夜景照明领域,丰富了夜景的表达形式,加强了公众与城市空间之间的互动体验。本文将新媒体艺术作为一种创新型的技术工具和新时代下的艺术审美思维应用于夜景经济下的城市家具设计,创新城市家具设计的理念和手段,与城市发展的步伐齐头并进,达到提升城市形象
在这个互联网技术引领潮流的时代,网络空间中数据和信息的数量多到难以统计,人们迫切的需要从海量的信息数据中“检索”出需要的内容。推荐系统通过将物品与信息联系起来成为了“信息检索”的一把利剑。在实际应用中以电子商务为例,高质量的推荐系统一方面可以帮助电子商务平台提高销售量,另一方面还可以提高顾客对电子商务平台的满意度。本文以研究协同过滤推荐算法为基础,针对该算法中的不足提出改进措施。首先根据相似用户和
在进行大规模新冠检测时,我国采用先对样本分组、再将样本混合检测的策略取得了很好的检测效率.但是在对样本进行分组时,单组的样本数量选择多少是最好呢?我们对此问题进行了数学建模分析:以降低总检测次数为优化目标,找出总检测次数与单组样本数量之间的函数关系,采用导数求极值的计算方法,获得了最优的单组样本数量取值.
2021年新高考全国1卷研究函数两个零点x1和x2的大小关系,最终采取的方式都是利用函数值的大小来确定自变量的大小,总的来说属于双变量问题探讨.本文详细分析这道试题,给出一题多解,从中归纳处理极值点偏移的通性通法以及处理双变量问题的基本思路,并从高等数学的观点揭示极值点偏移的内在原因,同时遵循命题规律,给出这两道试题相应的改编命题,最后总结梳理高考中具有代表性的双变量的问题.
抑郁症是近些年来社会影响较大的疾病,而功能磁共振成像的发展正好为抑郁症的脑研究提供了技术支持。基于功能磁共振成像数据,本文旨在用机器学习的方法对听觉刺激下的重度抑郁症患者进行分类,并对特征体素进行功能定位,为抑郁症的诊断、预后及发病机制的脑研究提供参考脑区。基于音乐刺激下的功能磁共振成像数据,本文首先借助SPM完成了图像预处理,其中包括层间时间校正、头动校正和空间标准化三个步骤;然后,本文借助Py
随着我国城市发展体系逐渐走向成熟,城市化水平不断提高,超大城市、特大城市居民出现了不同程度的健康需求,而现有城市空间多是注重其功能性,追求容积率,对健康需求的满足形式较为单一。本文以城市空间中的城市公园作为研究对象,结合居民健康需求,提出以复愈性环境理论为基础的设计理念。首先对复愈性环境理论进行深入研究,在理论的基础上设计城市公园中复愈性环境构成要素和居民复愈性行为特征的问卷调查,基于SPSS软件