论文部分内容阅读
数据填充是对数据集中的缺失值进行插补的过程。现有的不完整高维数据填充算法存在着诸如时间复杂度较高、填充准确性差、鲁棒性低等问题,且目前的研究大多没有对整个处理流程进行优化,也没有根据高维数据的特点进行改进。针对这些问题,本研究从数据降噪到归一化处理再到数据降维处理,最后采用一种新型的数据填充模型进行填充,达到了更为优秀的填充效果。本课题使用小波阈值降噪方法对高维数据集进行降噪,传统的小波阈值降噪方法在选择小波基函数时往往采用遍历的方式进行选择,而这种遍历方式不适用于高维数据集,容易引发维数灾难问题。因此,采用基于随机采样思想的小波基函数选择方法,并对软阈值函数做出了改进。实验表明,该方法取得了计算效率和降噪效果的平衡。传统的数据归一化方法往往需要求取数据集的最大值、最小值、平均值或者方差,当有新数据加入时必须重新计算,然后重新对数据进行归一化处理,导致了大量的冗余计算。针对高维数据的特点,本课题采用了一种新的指数函数型归一化方法,提高了数据归一化的效率,且有新数据加入时也不会造成重复的计算。使用群智能优化算法对高维数据集进行降维处理,根据高维数据维数较高,数据特征多变的特点选择了鸟类匹配算法(BMO),因为BMO算法具有分组迭代的思想,且每个分组具有不同的搜索能力,可以根据不同高维数据集的特征调整不同的分组比例,达到较好的降维效果。针对BMO算法存在的问题进行了两点改进:基于适应度值方差设计了自适应参数调整机制,使得算法可以根据数据集的特点以及算法迭代的不同时期实时调整算法参数;融合模拟退火算法改善算法早熟问题,改进为自适应模拟退火BMO算法(SABMO)。实验表明,SABMO算法对高维数据集的降维具有更好的效果。将SABMO算法用于神经网络训练时优化其权值和阈值,即SABMO-NN填充模型。然而SABMO-NN填充模型是一个静态模型,在应用阶段不会再改变权值和阈值,使用时间久了之后可能导致预测误差变大,此时只能重新训练该填充模型。针对这种缺陷,加入了基于反馈校偏机制的改进,使得改进后的填充模型可以根据未缺失的数据进行校偏,实现预测精度的提高。实验表明,改进的SABMO-NN填充模型具有更好的填充精度,且不需要频繁的重新训练。