【摘 要】
:
数据缺失在统计调查与研究中普遍存在,数据缺失往往会导致统计推断结果不可靠。对缺失数据处理的常用方法有删除含缺失值的样本点或观测变量、不处理、对缺失值进行填补等。本文主要研究不同缺失机制、不同缺失率下,常见填补算法的适用场景和参数优化问题,并通过实例对改进算法进行比较研究,以期为实际应用提供参考。首先通过数学归纳法给出了完全随机缺失、随机缺失、非随机缺失三种缺失机制的数学描述,并给出了三类缺失在特定
论文部分内容阅读
数据缺失在统计调查与研究中普遍存在,数据缺失往往会导致统计推断结果不可靠。对缺失数据处理的常用方法有删除含缺失值的样本点或观测变量、不处理、对缺失值进行填补等。本文主要研究不同缺失机制、不同缺失率下,常见填补算法的适用场景和参数优化问题,并通过实例对改进算法进行比较研究,以期为实际应用提供参考。首先通过数学归纳法给出了完全随机缺失、随机缺失、非随机缺失三种缺失机制的数学描述,并给出了三类缺失在特定情形下的模拟代码。然后基于交叉验证法和高斯函数加权法对K近邻算法进行优化,提出了加权K近邻填补算法。同时,针对加权K近邻填补算法中为不同缺失值样本点计算得到的近邻距离差异而导致权重分配不合理问题,通过数据集中的具体观测值对高斯函数的参数进行动态调节,提出了基于动态调参的加权K近邻填补算法,理论研究和实证分析显示,该方法在提升填补效果的同时具备一定的通用性。最后,针对加权K近邻填补算法中过分依赖最邻近样本点而导致的算法稳定性下降问题,本文创造性采用缺失森林算法对其填补结果进行校准,针对缺失率增大而导致的填补算法效果逐步下降的问题,本文使用迭代法将填补过程中非完整数据集的缺失率进行逐步降低,提出加权K近邻与缺失森林混合迭代填补算法,实证分析显示,基于不同缺失机制和缺失率前提,该方法在填补准确性方面继承了加权K近邻算法,而在稳定性方面继承了缺失森林算法。
其他文献
<正>美国星链(Starlink)项目从计划提出到全面建设七年来步步为营,成为卫星互联网行业标杆。通盘谋划,扎实构建全球化、全领域、敏捷化的产业链条,是星链在卫星互联网应用领域不断发展壮大、刷新商业价值的关键,也是其称霸全球未来“大信息时代”的核心竞争力。一、引言卫星互联网应用产业链聚焦卫星互联网产业链应用侧相关要素,紧密围绕应用产业战略与发展目标,按照结构属性及价值属性的不同,划分应用产业链上下
目的 探究小剂量艾司氯胺酮预处理对接受隐匿性阴茎矫正术患儿应激反应及疼痛的影响。方法 将2020年8月—2021年8月在攀枝花学院附属医院拟行隐匿性阴茎矫正术的120例患儿随机分为对照组、试验组,每组60例。对照组在诱导前10 min给予0.01 mg/kg阿托品预处理,试验组在对照组的基础上给予小剂量(0.25 mg/kg)艾司氯胺酮。在诱导前10 min内记录2组2.5 min、5 min、1
目的:观察老年髋关节置换术病人围术期艾司氯胺酮应用的安全性及有效性。方法:择期全麻下行髋关节置换术的老年病人90例,性别不限,随机分为对照组(S组)和观察组(E组),每组45例。S组接受超声引导下前路腰、骶丛神经阻滞,切皮前5 min静脉缓慢推注咪达唑仑和舒芬太尼注射液,术后使用舒芬太尼注射液配置成经静脉自控镇痛(PCIA)泵镇痛;E组同样接受超声引导下前路腰、骶丛神经阻滞,切皮前5 min静脉缓
课程思政是新时期教育发展的一项重要教育战略。数学课程与思想政治课同向同行,协同育人。思政教学得以实施,教育目的得以实现。本文以“四观”为思政元素切入点,以学生为中心,围绕学生思政需求,探索职业院校数学课程思政教学实践策略,从教师、教学模式和教学评价三个层面给出建设性意见,以期更好地推进全员全程全方位育人。
叙事是理解社会和经济行动得以发生的非理性机制的重要概念,近年来在经济、治理、公共政策等社会科学领域获得广泛的重视。叙事对制度执行产生话语效应与证据效应,具有承载公共目的、建构制度意义、促进集体合作的积极功能。从认知、心智与行为的逻辑出发,叙事推动制度执行的底层机制包括基于符号系统的制度意图传达、基于知识转译的制度内容简化、基于框架效应的制度行动激发、基于情绪特征的制度效果诊断等。因此,应当高度重视
目的 分析右美托咪定联合艾司氯胺酮的应用效果。方法 选取2021年1月-2022年2月68例大面积烧伤患者,随机分组。对照组单用右美托咪定,观察组则加入艾司氯胺酮。比较两组换药前后VAS评分、心率、平均动脉压以及血氧饱和度的差异,并比较两组患者换药前后应激反应指标(肾上腺素、去甲肾上腺素、皮质醇、血糖)的变化,最后比较两组药物不良反应率差异。结果 (1)观察组换药前VAS评分为(2.5±0.6)分
目的:通过干预orexin系统,早期干预睡眠障碍,是否能减轻睡眠剥夺对阿尔茨海默病小鼠的学习记忆损害,并探讨其可能存在的机制。方法:本实验选取3月龄APP/PS1小鼠,分为三组:对照组(CON)、睡眠剥夺组(SD)、睡眠剥夺与orexin双受体拮抗剂组(ALM),检测各组小鼠学习记忆功能、脑组织Aβ的沉积、Aβ产生和降解有关的蛋白酶以及水通道蛋白4(AQP4)的极性等指标。结果:在Y迷宫中,与CO
目的 探讨胰腺CT密度和最大截面积联合中性粒细胞淋巴细胞比值(NLR)检测在重症胰腺炎预后的评估价值。方法 选取2020年6月~2022年1月我院收治的46例重症胰腺炎患者作为观察组,另选同期40例健康体测者作为对照组,对所有研究对象进行CT检查,结合Image J计算胰腺CT密度和最大截面积,检测NLR,利用ROC曲线分析三者联合对重症胰腺炎预后评估的价值。结果 观察组患者胰腺CT密度小于对照组