基于迁移学习的缺失值插补算法研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:zhoushucheng0533
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,数据分析逐渐显露出其巨大的价值。作为数据分析的重要组成部分,缺失值插补技术直接影响数据分析的准确率,进而影响数据分析的结果。关于缺失值插补的相关工作,已经有很多,然而,关于缺失值数量较多场景下的缺失值插补算法的研究目前还十分缺乏。而实际工业生产中,往往产生数量较多,比例较大的缺失值。因此,提高缺失数量较多的缺失值插补算法准确率成为了当下缺失值插补算法的热点问题。本文针对这个问题,做了以下工作。首先,针对网格类数据场景下某一特征缺失值数量过多的情况,分析了迁移学习算法TradaBoost对其进行缺失值插补的可行性,并与k-NN,低秩矩阵插补和0值插补等传统缺失值算法进行性能对比分析。在糖尿病预测数据集上的测试结果表明,在AUC和F1指标上,基于TradaBoost的缺失值插补算法相比于传统算法取得的效果不明显。这是因为TradaBoost只能接受离散变量输入,用之构建缺失值算法需要将连续变量转化成离散变量,丢失大量信息。接下来,针对TradaBoost缺失值插补算法性能提升不理想的问题,进一步提出了基于回归的TradaBoostReg算法,减少了训练过程中连续值转化成离散值导致的信息损失。在糖尿病预测数据集上的实验仿真表明,在缺失值比例大于51%的时候,TradaBoostReg算法相较于传统缺失值插补算法性能更优。最后,针对算法迭代效率低的问题,对回归TradaBoostReg算法的损失函数进行标准化处理,使得误差损失一直工作在最佳范围内。在糖尿病预测数据集上的实验仿真表明,在保证性能较于传统缺失值算法略有提升的情况下,大大提高了迭代的效率。
其他文献
随着现代工业的发展,工业系统日趋复杂化,过程控制系统的实时监测不仅能够保障工业过程的稳定运行,同时还为产品生产过程中的控制、决策、调度等提供可靠的依据。近年来,硬件技术水平及芯片存储运算性能显著提升,硬件技术上的发展也带动了工业过程生产技术的革新,使得海量的数据被广泛的记录。而基于数据驱动的故障诊断技术由于无需建立复杂的机理模型,仅根据过程数据对系统状态进行诊断,因此得到了广泛的研究与关注,同时面
微小型水下机器人厘米级别的高精度作业具有重要应用价值。为了满足高精度控制的需求,需要获得高精度与噪声小的位置、姿态和速度信息,同时这些状态信息还需要具备长时稳定的能力。目前在传统的状态估计方式中,DVL(多普勒测速仪)和INS(惯性导航系统)结合的DR(dead-reckning)方案应用最为成熟,但该方案存在造价昂贵,靠近水底有死区,浅水中噪声过大的问题。状态估计存在的问题大大地制约了水下机器人
近几年,我国工业企业面临两大挑战:一方面企业的利润普遍呈下降趋势,随着人口红利的逐渐消失企业在市场竞争中获取利润越来越难;另一方面,随着能源阶梯价格机制的逐步形成,水、电、气等能源价格逐步走高,能源费用占企业总体成本的比例也随之水涨船高。因此,企业对压缩能源费用提升企业市场竞争力有着强烈的愿望,但是整体来看我国工业企业在能源管控上还比较落后,主要还是依靠单点的技术改造来进行节能。因为在能源管控建设
随着我国经济的不断发展,越来越多的人开始接受信用贷款的超前消费模式,个人信用贷款业务在银行贷款业务中的比重不断上升,P2P(Peer-to-Peer)等互联网金融公司也蓬勃发展。银行和其他互联网金融机构急需采取合理有效的措施规避业务规模不断扩大所带来的信用风险。本文基于捷信(Home-Credit)提供的真实用户历史交易数据集,对信贷违约风险进行预测分类。首先对数据进行可视化分析,了解数据的分布情
语义Web试图为互联网上的资源赋予语义,使计算机明白资源的真正含义。然而资源的意义在拥有者、使用者眼里是不尽相同的,这就是语义的自我意识性;每个资源的意义是由与它相关的资源的意义来确定的,这称为语义的互相表示性;资源间的相关程度是不同的,这称为语义的模糊性;资源间的关系及相关程度是不断变化的,这称为语义的动态性。语义Web用到了自我意识性和互表性,但没有明确提出这两个概念,且未涉及到动态性和模糊性
传统的两栖车辆只能在陆地和水面上航行,增加两栖车辆的可潜性能,可以躲避海上的风浪,有效减小航行阻力,增加车辆的隐蔽性,能够显著提高侦察能力和作业时长。因此,两栖车辆在水下时的机动性能具有重要的研究意义和应用价值。本文参考了美国两栖战车AAAV,建立了以对称楔形车体为主体,以喷水推进器为推进装置、燃料电池为其动力装置、矢量喷嘴为其操控装置的可潜式两栖车辆方案,对该方案下的水下航行机动性能进行了研究。
党的十九大会议上提出实施乡村振兴战略,“产业兴旺、生态宜居、乡风文明、治理有效、生活富裕”为总要求。这是党站在中国特色社会主义进入新时代历史方位下的“三农”工作方略,是习近平“三农”思想的集中体现。乡村振兴战略是一项复杂的系统工程,内容多、难度大、任务重,需要各地区做长期艰苦的努力。正确认识当前乡村发展水平,准确把握“三农”发展中的存在的问题,找出切实有效的发展途径,是实现乡村振兴战略目标的关键。
随着“中国制造2025”计划的逐步实施,中国许多依靠廉价劳动力的中小型企业,正在面临着产业的转型和升级,制造业中越来越多的企业正在往多品种、小批量、智能制造的方向发展
我国是紧固件产销大国,紧固件年产销量世界领先,但是由于缺乏自主知识产权,我国紧固件产品在国内外市场竞争力极低。市场竞争日益激烈,紧固件企业的生存与发展环境日益严峻。如何有效应对当前挑战,培育企业核心竞争力成为企业决策者们亟需解决的问题。实践表明,专利是企业保护自主知识产权,提升企业核心竞争力的有效手段。专利是一种有效的战略竞争工具,企业专利战略的实施可以为企业带来持续的、稳定的发展动力。本文以M公
高新技术企业成为近年来我国经济发展的核心主体,成为我国市场经济体系中不可或缺的部分,高新技术企业为推动我国经济发展以及经济结构的转型做出了巨大的贡献。对于高新技术企业来讲,科研人员是其发展的根本,其所掌握的知识和技术是高新技术企业市场竞争的关键。但是就我国高新技术企业的发展现状来说,其研发人员的付出及收获存在不成正比的情况。一方面,科研成员的工作成果对于企业的贡献难以实现良好;另一方面,在科研人员