客运数据质量检测与缺失数据修补研究

来源 :重庆交通大学 | 被引量 : 0次 | 上传用户:mubila
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据时代,随着数据量级呈指数级增长,在数据管理和分析工作中不可避免地会出现异常数据和缺失数据,为保证数据挖掘和知识发现结果的有效性,对数据进行异常检测和缺失数据修补显得尤为重要。本文以客运数据为研究对象,利用现有算法对异常数据和不完整数据进行检测,并针对数据离散缺失和连续缺失问题,分别提出了双聚类点缺失数据修补改进算法和基于非负矩阵分解的连续缺失数据修补算法,并以真实客运数据进行了实验验证。论文主要工作如下:(1)针对客运数据中存在数据异常和不完整性问题,采用层次聚类对低位点异常和离散缺失值进行检测,并利用基于滑动窗口的检测算法对连续缺失数据进行检测,为后续缺失值修补提供数据基础。实验结果表明,因低位点与正常值相差较明显,层次聚类检测算法对低位点异常的检测准确率为100%,对缺失值的检测准确率为89.7%;基于滑动窗口的检测算法对连续缺失数据的检测准确率为93.5%。(2)针对传统双聚类缺失值修补算法存在修补精度低、计算复杂度高的问题,提出了双聚类缺失数据修补改进算法(Bicluster-based Discrete Missing Data Imputation Improved Algorithm,BDMDII)。该算法在寻找聚类簇时,引入行列保护规则避免聚类簇规模过大导致其信息量冗余的问题,制定修补权值函数提高修补精度,设置平均平方残基最大阈值降低计算复杂度。实验结果表明,改进算法比原算法精度提高了45.7%,缺失数据修补时间减少了10%。(3)针对双聚类缺失数据修补改进算法修补连续长缺失序列数据精度较低的问题,提出基于非负矩阵分解的连续缺失数据修补算法(Sequence Missing Data Imputation Based on Nonnegative Matrix Factorization,NMF-SMDI)。该算法根据客运数据的时间周期性特征,引入非负矩阵分解方法,将缺失序列按时间周期分解为离散缺失,再利用双聚类点缺失数据修补改进算法进行数据修补。实验结果表明,在连续缺失数据长度固定且缺失率在30%~50%时,NMF-SMDI算法比BDMDII算法精度提高了18%;在数据缺失率相同且连续缺失长度大于4时,NMF-SMDI算法比BDMDII算法精度提高了24.6%。
其他文献
在林业发展过程中,除草技术对于林业育苗成效影响显著。传统的人工除草方式需要花费高昂的成本,工作量大,而且效果不佳。而化学除草技术能够促进苗木发芽,提高苗木成活率。基
目的观察自制疝带治疗小儿腹股沟斜疝的疗效。方法将62例小儿腹股沟斜疝患儿随机分为2组,治疗组31例行手法复位后用自制疝带治疗,对照组31例行手法复位后用棉线束带治疗,比较
旨在探讨舞动治疗对于辅导员职业倦怠干预的效果,为辅导员缓解职业倦怠提供方法和依据。采用简单随机抽样方法,从三所高校中抽取60名辅导员进行研究,分为两组,通过舞动治疗与
剖析了经济增加值和净现值的内涵,比较了二者的相同与不同之处。经济增加值和净现值都体现了股东财富最大化的目标,不同之处在于,净现值指标适宜于选择投资方案,而经济增加值则更
本文用生物信息学方法对松树359521条EST进行处理,得到无冗余EST序列56776条,其中有2315个SSR分布于2057条EST中,出现频率是4.08%,平均距离是22.06kb。检测到二、三碱基重复S
目前国内外对高温废水处理仍然是先降温后处理的模式对富含醇溶蛋白质的高温废水仍然缺乏切实可行有效的方法本文从上述废水的特点出发提出了70℃超高温两相厌氧处理工艺高温
植物表皮蜡质是覆盖在植物表皮细胞外的复杂有机混合物,主要由亲脂性化合物组成,包括超长链脂肪酸、烷烃、一级醇、次级醇、脂肪醛、酮类和酯类物质等,一般呈绿灰色和灰白色
电子数据审计的研究与应用是近年来审计领域的热点问题。大数据时代的到来给电子数据审计带来了机遇。本文首先分析了研究大数据环境下基于数据可视化技术的电子数据审计方法
近年来,化石能源所带来的能源危机和环境污染迫使着全球各国逐渐转向以太阳能、风能、潮汐能等新型绿色能源作为基本能源。然而原有的能源储存设备已无法满足新型绿色能源的
直拉硅单晶炉、多晶硅铸锭炉是生产硅片的主要设备,其核心部件均为高纯石墨材料,随着太阳能光伏行业的发展,传统石墨材料很难满足直拉硅单晶炉和多晶铸锭炉生产设备的大型化