基于属性相关性与特征选择的K-近邻缺失值顺序填充算法

来源 :锦绣·下旬刊 | 被引量 : 0次 | 上传用户:zhaorongjian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:由于K-局部近邻插补算法无法直接计算相关性,因此在插补时难以进行特征选择,提出一种基于属性相关性的对于多维数据缺失按顺序并进行特征选择的填充方法,在解决相关性计算的问题同时提出了采用相关性进行填充顺序选择。算法首先提取完整数据集或者投影计算距离相关性,并按照一定的方式按相关性从大到小进行填充,保证在填充时不会因为特征选择出现参照数据集为空的情况,在填充时选择大于相关性临界点的特征在投影的基础上进行近邻填充。实验分别在不同缺失率下计算该方法与其它算法的均方误差结果,结果表明,该算法在填充效果上明显优于其它算法。
  关键词:距离相关性;特征选择;顺序插补
  引言
  数据缺失在现实中是一种非常常见的现象,它产生的原因可能是信息难以获取或者是数据传输中发生错误产生遗漏。数据缺失会导致模型难以建立,使决策分析无法达到好的效果。数据挖掘中预处理占最大比重,而预处理中最关键的就是对缺失数据的处理。
  常用的处理方法有加权法、删除法和插补法。加权法通过某些方法把权数从缺失单位上转移到非缺失单位上,删除法则是直接删除存在缺失单位的样本,直接得到一个完整的数据集。删除法虽然简单,但当缺失率比较高的时候可能会删除较多的样本,产生较多误差,因此国内外学者更希望采用其他方法来填补不完整数据,以保证数据的质量,即插补法,插补法是用一个或者多个估计值来代替缺失值的方法,前后分为单值插补和多重插补,常用的单值插补有均值填充、回归填充、冷卡填充和热卡填充等。
  K-近邻填充(K-nearest neighbor imputation, KNNI)是一种比较典型的冷卡填充,它是Olga Troyanskaya提出的基于局部相似性的插补算法,它将完整数据集提取出来,缺失值的近邻样本将从完整数据集中提取,分类值采用众数填充,连续值采用平均数填充,这种方法的填充效果极大程度上收到了缺失率的影响,当缺失率极大时,完整数据集的样本数量将会非常少,这意味着这种情况下得到的近邻样本实际上相似性并不高,这可能导致产生较大的误差,在这个基础上,杨日东、李琳等提出了基于局部K近邻的填充算法,它并不直接提取完整数据集,而是在填充缺失值时,将当前样本的完整属性投影出来,并根据属性投影结果从数据集中提取完整数据集,这在缺失率较大的情况下极大地改善了K近邻插补的缺陷,但以上都并未考虑过属性相关性以及填充顺序对填充准确率的影响。刘春英提出了一种基于属性依赖度的顺序填充方法,利用填充树按依赖度从大到小进行填充。谢霖铨、赵楠等和张晓琴、王敏都采用了主成分分析法进行二次插补。现有的将相关性应用到算法中的方法很多,但对于填充顺序进行处理的方法却相对较少,本文将通过距离相关性研究填充顺序与特征选择在提升K-近邻填充准确率的能力。
  1相关概念与原理
  距离相关性(Distance Correlation)
  皮尔逊相关系数常被用于度量两个变量之间的线性相关程度,两个变量必须服从正态分布的假设,对于非线性关系无法进行测量,即pearson相关系数为0时,两个变量不一定是独立的,自然界中的变量仍有大部分是非线性关系,而距离相关系数能很好地克服这个缺点,距离相关系数为0时,我们可以说这两个变量一定是独立的。王黎明、吴香华等对比了皮尔逊相关系数、秩相关系数、距离相关性的利弊,最终采用距离相关系数来衡量预报因子和PM2.5之间的相关性。
  研究变量 和 的独立性,记为 。当 时, 和 相互独立; 越大,代表 和 的相关性越强。设 是总体 的随机样本, Székely等 (2008) 定义两随机变量的 和 的DC样本估计值为
  1.2K-局部投影
  传统K-近邻填充在缺失率较大的时候可能导致完整数据集的样本数量过小或者为空,填充时难以找到真正的近邻,K-局部近邻插补针对这个缺点做了改进,使能够参考的完整数据集更多。
  K-局部近邻插补中,投影是其中最关键的部分。若样本 在属性 上的值是缺失值,对于 在数据集T上投影的完整数据子集为TC,其中 ,任意 对应的TC都是不同的。例如表1来说,如果需要對数据aB进行填充,那么缺失属性集 ,完整数据子集 ,近邻样本则在TC中取舍。而对于传统K-近邻填充,完整数据集 。
  1.3基于属性相关性与特征选择的K-近邻缺失值顺序填充算法
  在K-局部近邻插补中,插补从样本中缺失值最多、属性中缺失最少的数据开始,这说明算法的插补顺序完全是由数据的缺失分布确定的,并且在计算样本相似度时,也未曾考虑属性之间的依赖程度,这可能导致相关性不高的属性介入相似度计算,使计算出的近邻是相似度不高的伪近邻。如果要在该算法基础上将相关性计算与它结合,有缺失值的数据集会无法进行相关性的计算,若在对每个缺失值做相似度计算前计算属性的相关性再进行属性筛选,这将极大地增加算法的运行时间与复杂度。因此本文将K-近邻插补和K-局部近邻插补两种算法结合后进行改进,使属性相关性能够同时对填充顺序和特征选择作出干预,同时最小化相关性计算、顺序填充和特征选择的运算时间代价。
  1.3.1 属性相关性计算
  K-近邻插补的优点在于它直接筛选出没有缺失值的完整数据子集,所有插补计算都在这个完整数据子集上进行,因此它十分简便,计算速度也很快。由于不存在缺失值,距离相关性也可以在完整数据子集上很方便地计算出来。但K-近邻插补的缺点在于,当缺失率较大时,无法找到完整数据子集或者子集容量太小无法进行计算,此时将属性两两筛选完整子集进行相关性计算,最终计算出属性相关性矩阵C。
  在数据集 中,属性集 的数量为 , 表示标签列的数量,样本数量为 ,样本中存在缺失值的属性集为 ,该数据集相关性矩阵为 。 变量 的距离相关性, ,因此 为轴对称矩阵,其中 。当缺失率较小、通过删除法得到的完整数据子集 的样本数量i'占数据集T样本数量i的比例≥一个给定的 假设值时,直接使用完整数据子集通过式(1)计算相关性矩阵 ;当缺失率较大,可能导致比率 时,通过对数据集 的属性列 作删除法,将得到的子集 通过式(1)计算相关性矩阵 。   1.3.2 特征选择
  在进行插补时,如果采用全部的属性集做近邻插补,某些属性与待填充数据的属性相关性较小或者是相互独立的情况下,无论是计算相似度还是近邻填充都会扭曲近邻分布,降低插补的准确率,因此需要根据相关性剔除参照属性中相关性过低的属性。参照属性指的是对于待插补值选出的用于计算近邻的完整数据集的属性,参照集是该完整数据集。对于待插补值 ,首先通过投影得到参照数据集D,其中属性集为 ,设定相关性临界点Cr,当 中的属性在相关性矩阵 中的属性 列中的对应值小于 时将剔除该属性列。
  当 时,算法不做特征处理,相当于有排序的K-局部近邻插补; 时,表示只有强相关的属性才能进行近邻计算,此时将无法进行填补运算。经过大量实验, 的取值在0.6左右表现为最好。
  1.3.3 顺序选择
  由于本文针对的是属性中的缺失值插补,而标签中的数据是完整的,因此当标签列作为参照属性时,不会减少参照集的样本数量,因此当按照与标签的相关性从大到小的顺序进行插补能得到较多的参照样本数量,在极限情况下与当前属性的相关性只有标签列达到临界点要求时,不会出现参照集太小或者为空的情况。
  选择第二个填充列时,选择 中使值最大的 作为当前填充列 ,以此类推,直到填充完毕。
  1.3.4 极端情况
  当数据集的缺失率较大时,存在一种情况,即选择的填充列 与其它属性列的相关性并不大,甚至小于 ,该列在特征选择上会删除所有的参照集的属性,导致无法进行插补。对于这种情况,本文作如下设计:对于当前设定的相关性临界点 ,如果在填充时由于 比较高导致参照集为空,那么将 减去一定的值,直到使参照集非空,然后在下一个缺失值填补时返回原设定的 值。
  1.4算法的实现
  基于属性相关性与特征选择的K-近邻缺失值顺序填充算法流程如图1所示。
  2实验结果及分析
  2.1 实验方法
  为了验证算法在真实情况下的有效性,进行了仿真实验。从公开数据集UCI上提取Breast、Slump、Real Estate、Yacht4个完整数据集,随机在属性中分别生成5%、10%、15%、20%、25%、30%的缺失值,分别采用本文提出的方法和K-近鄰插补法、K-局部近邻插补方法在4个数据集上进行实验。
  由于数据量纲的不同,将所有数据集进行归一化,实验中采用的是Min-Max标准化(Min-Max Normalization),将原始数据通过线性变换转映射到[0,1]之间,公式如下:
  从结果来看,改进后的算法明显优于K-局部近邻算法,并且具有一定的稳定性,并且在大部分的情况下随着缺失率的增加MSE的增长速率明显小于LKNN。两种算法在Yacht上的MSE的差要比其他三个数据集上小一些,这是由于不同数据集中的属性与属性、属性与标签之间的相关性都是不同的,可以看出Yacht数据集的相关性比较强,导致即使做了特征选择,剔除的属性也没有其他三个数据集多,使算法和K-局部近邻方法更相当一些。
  3结语
  为解决特征选择无法直接在KNN局布近邻插补法上使用的问题,本文采用K近邻插补算法中提取完整数据集的方法计算距离相关性,并采用距离相关性同时对插补顺序和特征选择进行了融合改进,通过观察仿真实验结果,可知基于属性相关性与特征选择的K-近邻缺失值顺序填充算法在填充准确率上明显优于K-局部近邻插补算法。
  但算法也有不足之处,在属性值较多的情况下,频繁进行特征选择将大量提高算法的时间复杂度,在未来的研究中将会对这一不足之处进行优化。
  参考文献
  [1]LUKASZ A K, PETR M. A survey of knowledge discovery and data mining process models[J]. Knowledge Engineering Review, 2006, 21(1):1-24.
  [2]邓建新,单路宝,贺德强,唐锐.缺失数据的处理方法及其发展趋势[J].统计与决策,2019,35(23):28-34.
  [3]王敏. 基于成分数据的缺失值补全方法研究[D].山西大学,2016.
  [4]晔沙.数据缺失及其处理方法综述[J].电子测试,2017(18):65-67+60.
  [5] TROYANSKAYA O, CANTOR M, SHERLOCK G, et al. Missing value estimation methods for DNA microarrays. Bioinformatics, 2001, 17(6): 520-525.
  [6]杨日东,李琳,陈秋源,周毅.LKNNI:一种局部K近邻插补算法[J].中国卫生统计,2019,36(05):780-783.
  [7]刘春英.基于属性依赖度的缺失值顺序填充算法[J].计算机应用与软件,2013,30(09):215-218.
  [8]谢霖铨,赵楠,徐浩,毕永朋.基于属性相关性的K N N近邻填补算法改进[J].江西理工大学学报,2019,40(01):95-101.
  [9]张晓琴,王敏.基于主成分分析的成分数据缺失值插补法[J].应用概率统计,2016,32(01):101-110.
  [10]王黎明,吴香华,赵天良,程国胜,张祥志,汤莉莉,贾梦唯,陈煜升.基于距离相关系数和支持向量机回归的PM_(2.5)浓度滚动统计预报方案[J].环境科学学报,2017,37(04):1268-1276.
  作者简介:唐晗,女,1993年11月,汉,江西省吉安市,工学学士,江西应用工程职业学院,数据挖掘。
其他文献
摘要:随着经济的快速发展,“大众创业、万众创新”俨然成为经济发展新常态,高校作为创新创业的主力军,为大学生群体提供了建设创客空间的独特优势。研究发现,创客空间的建立为大学生创新创业能力的培养提供了良好的平台,大学生创客的核心能力主要包括创新能力、学习能力、协作能力、意志能力和实践能力,本文对培养大学生创客创新创业能力的重要性、发展的困境进行论述与分析,并提出针对性提升策略。  关键词:大学生;创客
期刊
摘要:各高职院校必须努力提高课堂教学的效果,尽量消除课堂中存在的不良教学环节,调整教学内容以突出技能训练、开放实训室、创新实训教学方法、引入合适平台进行过程性评价,把传授知识、训练技能、培养能力、开发智力、促进学生健康发展等各种因素有机地结合起来,以完善整个教学系统的工作程序,多方面结合提高实训课堂效果。  关键词:计算机公共基础课程;课堂;效果  一、引言  “计算机公共基础课程”是高职高专所有
期刊
摘要:在新课程改革逐渐深化以后,高职教育教学的模式也开始发生改变。为了顺应当前时代对于人才的需求,高职教育教学的目标在于培养更多的从职人员。而工匠精神对于从职人员的培养有着相当积极的作用。本文从工匠精神的主要价值出发,思考高职教育教学培养社会人才的策略,营造良好的校园气氛,加强课堂的积极作用,扩大建设专业教师队伍的力度,落实工匠精神在教学过程中的  关键词:工匠精神;高职教育;教学目标  高职院校
期刊
摘要:基础法语课程中的听力模块的训练一直处于被忽视的地位,而传统听力教学模式又存在一定的弊端,给教学带来一些负面影响。因此,本文基于现状进行分析,提出利用线上智慧教学平台与线下教学相结合的教学新模式。  关键词:基础法语;听力;线上教学  根据《普通高等学校本科法语专业教学指南》的要求,基础法语课程被列为核心课程。课程通过系统性的教学和训练,使学生全面掌握法语语言基础知识点,并掌握听、说、读、写、
期刊
摘要:汉藏翻译是藏区人民群众了解更多信息的重要渠道,电视新闻作为藏民获取信息一大渠道需加强汉藏翻译,以免在新闻信息传输进程中出现语义上的偏差,同时满足藏民浏览新闻资讯的需求。本文通过分析电视新闻中汉藏翻译特点与技巧,以期为提升汉藏翻译水平提供参考。  关键词:电视新闻;汉藏翻译;信息传输  翻译是两种或多种语言之间的转换,在此基础上达到信息传输的目的,可见通俗易懂是翻译首先要做到的一点,还需在实践
期刊
摘要:随着我国的经济和社会发展,各方面转型加快,高职教育也发展迅猛,在数量、规模以及招生人数方面逐年扩张,面对的校园突发事件也更为复杂,尤其是面对社会影响、学校管理缺乏经验、生源结构复杂性的现实条件下,导致高职院校突发事件频发,也是影响高职院校正常教学秩序的很大障碍。因此,如何更好的应对高职院校突发事件应急管理策略值得探讨和深思。  关键词:高职院校;突发事件;应急管理能力  随着高职院校的大幅扩
期刊
摘要:大学生在MOOC课程的学习中,学习投入是评估学习质量的重要维度,而在线自我调节学习(OSRL)常常作为评估MOOCs学习或在线学习持续性的重要指标之一。基于此,本研究通过差异分析和相关分析,发现MOOC课程学习投入和OSRL在性别上均不存在显著差异;学习投入在年级和每周学习时间上存在显著差异,大一学生的学习投入显著高于大三学生;OSRL在专业性质和每周学习时间上存在显著差异,艺术类的学生OS
期刊
摘要:从目前高等数学的实际情况看,我国已经取得了比较显著的进步,但是在这个过程中依然存在很多问题,因此本文在进行研究过程中就结合实际调研结果,对目前我国高等数学教学过程中所存在的问题进行分析,并在此基础上提出几点建议对策。  关键词:高等数学;教学;问题;对策  对于高等数学而言,是大学理科教学过程中十分重要一门基础课程,其对于其他学科学习也会起到一定帮助,所以在进行大学高等数学教学过程中,教师必
期刊
摘要:本文关于小学体育课程混合式教学模式展开充分分析,简要阐述了小学体育课程混合式教学的重要性,然后主要探讨了小学体育课程混合式教学的具体策略,其中包括课前学生自主预习、强化课堂学生实践、课后巩固拓展内容,以此使学生掌握.大量的体育技能,为教师提供有效参考。  关键词:小学体育;混合式;教学模式  在我国教育的全面改革下,不断强化对学生的素质教育,提高整体的教学质量。在实际教学过程中,应当结合当下
期刊
摘要:本文从中医药的角度综述了糖尿病的四种病因和治疗原则,并从个人角度对针灸、刮痧等方法进行评价,以期对糖尿病的中医疗法起到参考作用。  关键词:消渴病;糖尿病;针灸;刮痧  一、“消渴病”及其病因  根据国际糖尿病联盟( IDF )发布的最新数据,目前全球患有糖尿病的成年人数目多达4.63亿,且在过去20年里,这个数目增加了两倍以上。从中医药的角度分析,糖尿病的临床表现与“消渴病”的症状基本一致
期刊