不完整高维数据的一种预处理和填充算法研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:mrchangmeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据填充是对数据集中的缺失值进行插补的过程。现有的不完整高维数据填充算法存在着诸如时间复杂度较高、填充准确性差、鲁棒性低等问题,且目前的研究大多没有对整个处理流程进行优化,也没有根据高维数据的特点进行改进。针对这些问题,本研究从数据降噪到归一化处理再到数据降维处理,最后采用一种新型的数据填充模型进行填充,达到了更为优秀的填充效果。本课题使用小波阈值降噪方法对高维数据集进行降噪,传统的小波阈值降噪方法在选择小波基函数时往往采用遍历的方式进行选择,而这种遍历方式不适用于高维数据集,容易引发维数灾难问题。因此,采用基于随机采样思想的小波基函数选择方法,并对软阈值函数做出了改进。实验表明,该方法取得了计算效率和降噪效果的平衡。传统的数据归一化方法往往需要求取数据集的最大值、最小值、平均值或者方差,当有新数据加入时必须重新计算,然后重新对数据进行归一化处理,导致了大量的冗余计算。针对高维数据的特点,本课题采用了一种新的指数函数型归一化方法,提高了数据归一化的效率,且有新数据加入时也不会造成重复的计算。使用群智能优化算法对高维数据集进行降维处理,根据高维数据维数较高,数据特征多变的特点选择了鸟类匹配算法(BMO),因为BMO算法具有分组迭代的思想,且每个分组具有不同的搜索能力,可以根据不同高维数据集的特征调整不同的分组比例,达到较好的降维效果。针对BMO算法存在的问题进行了两点改进:基于适应度值方差设计了自适应参数调整机制,使得算法可以根据数据集的特点以及算法迭代的不同时期实时调整算法参数;融合模拟退火算法改善算法早熟问题,改进为自适应模拟退火BMO算法(SABMO)。实验表明,SABMO算法对高维数据集的降维具有更好的效果。将SABMO算法用于神经网络训练时优化其权值和阈值,即SABMO-NN填充模型。然而SABMO-NN填充模型是一个静态模型,在应用阶段不会再改变权值和阈值,使用时间久了之后可能导致预测误差变大,此时只能重新训练该填充模型。针对这种缺陷,加入了基于反馈校偏机制的改进,使得改进后的填充模型可以根据未缺失的数据进行校偏,实现预测精度的提高。实验表明,改进的SABMO-NN填充模型具有更好的填充精度,且不需要频繁的重新训练。
其他文献
复杂背景下运动目标检测是图像处理和机器视觉领域的重要研究课题之一,近年来在遥感图像、安防监控、智能城市及军事导航等诸多领域中得到了广泛的应用。运动目标检测的目的
随着我国国民经济发展,铁路交通事业得到了前所未有的发展,铁路工程施工技术也不断完善,但是在施工过程中仍然存在着很多不安全因素,铁路工务系统的设备还不够完善,作业方式
这里以GJK系列高效节能多功能控制器为例予以介绍。
滚动轴承是易损件,为了更好并及时检测出在信噪比低的情况下的轴承早期微故障振动信号,提出了小波包最优熵和EEMD相结合的方法。运用小波包最优熵对采集信号实现信噪分离,突
为顺应时代发展的需要,深化教育改革和全面推进素质教育,基础教育课程改革正如火如荼地进行着。小班化教学是当代教育改革的世界性发展趋势,也是近年来基础教育领域内试行的
目的:观察心理护理在胰腺炎患者围手术期的应用效果。方法选取我院收治的胰腺炎患者110例,按照分层随机法分成观察组和对照组,对照组在围手术期采取围手术期,观察组在此基础上,采
<正> TXY系列稀土电动机选用了高导磁和高导电材料。它在转子笼内嵌上了由钕铁硼稀土材料组成的永磁磁钢,因此这种电动机被称为永磁高效电动机,简称稀土电动机。其特点是运用
问:请问(1)变压器的阻抗电压的概念是什么?变压器介质损耗是衡量变压器绝缘劣化的重要指标,是否还应同时参照其他测试指标?(2)可否用电感表测变压器三相绕组之间的电感量来判断绕组匝