论文部分内容阅读
在数据时代,随着数据量级呈指数级增长,在数据管理和分析工作中不可避免地会出现异常数据和缺失数据,为保证数据挖掘和知识发现结果的有效性,对数据进行异常检测和缺失数据修补显得尤为重要。本文以客运数据为研究对象,利用现有算法对异常数据和不完整数据进行检测,并针对数据离散缺失和连续缺失问题,分别提出了双聚类点缺失数据修补改进算法和基于非负矩阵分解的连续缺失数据修补算法,并以真实客运数据进行了实验验证。论文主要工作如下:(1)针对客运数据中存在数据异常和不完整性问题,采用层次聚类对低位点异常和离散缺失值进行检测,并利用基于滑动窗口的检测算法对连续缺失数据进行检测,为后续缺失值修补提供数据基础。实验结果表明,因低位点与正常值相差较明显,层次聚类检测算法对低位点异常的检测准确率为100%,对缺失值的检测准确率为89.7%;基于滑动窗口的检测算法对连续缺失数据的检测准确率为93.5%。(2)针对传统双聚类缺失值修补算法存在修补精度低、计算复杂度高的问题,提出了双聚类缺失数据修补改进算法(Bicluster-based Discrete Missing Data Imputation Improved Algorithm,BDMDII)。该算法在寻找聚类簇时,引入行列保护规则避免聚类簇规模过大导致其信息量冗余的问题,制定修补权值函数提高修补精度,设置平均平方残基最大阈值降低计算复杂度。实验结果表明,改进算法比原算法精度提高了45.7%,缺失数据修补时间减少了10%。(3)针对双聚类缺失数据修补改进算法修补连续长缺失序列数据精度较低的问题,提出基于非负矩阵分解的连续缺失数据修补算法(Sequence Missing Data Imputation Based on Nonnegative Matrix Factorization,NMF-SMDI)。该算法根据客运数据的时间周期性特征,引入非负矩阵分解方法,将缺失序列按时间周期分解为离散缺失,再利用双聚类点缺失数据修补改进算法进行数据修补。实验结果表明,在连续缺失数据长度固定且缺失率在30%~50%时,NMF-SMDI算法比BDMDII算法精度提高了18%;在数据缺失率相同且连续缺失长度大于4时,NMF-SMDI算法比BDMDII算法精度提高了24.6%。