代价敏感的缺失值填充若干问题研究

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:xiang88_77
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据挖掘与机器学习、模式识别和信息检索等数据分析等理论的应用领域中,数据的缺失是一个处处存在,不可避免且具有挑战性的问题。由于理论发展和实际应用的需要,国内外许多学者都较为深入地研究了缺失数据的成因、类型以及填充算法。各种用于缺失数据填充的算法已经被提出,典型的算法有:EM算法、单一填充法、多重填充算法和C4.5算法。但是,上述这些处理缺失数据的方法都是独立于具体应用的,也就是说它们是不考虑具体的应用领域而独立的填充算法。然而最新的研究结果指出这些不依赖于具体应用的填充算法对于一些机器学习任务(如代价敏感学习)来说是不适用的。在用给定的含有缺失数据的数据集训练一棵代价敏感决策树时,由于受到总代价约束的原因使得一些属性的缺失值不用去填充。故我们需要弥补代价敏感学习与缺失值填充问题之间留下的空白。在数据挖掘和机器学习领域,代价敏感问题的研究一直是一个热点问题,国内和国外的很多研究人员或研究机构在代价敏感问题方面都做了许多研究,并提出了很多新的理论与方法。这当中最受关注的是两类代价:即测试代价和误分类代价。在国外,最早针对数据缺失处理技术展开研究的是美国,它研究的出发点是纠正整个美国社会保险的数据差错。在此期间学者们提出了利用与缺失数据最近似的值来填补空缺数据的方法,例如k近邻分类、粗糙集理论、贝叶斯网、神经网络(NN)等。目前在国内,对缺失值填充问题的研究尚处在起步阶段,尽管在一些学术会议和期刊文献中也可以找到一些有关缺失值理论性研究,但是对缺失数据处理直接相关的研究成果并不常见。此外基于代价敏感的缺失值填充这种新颖的方法在国内外的研究中尚属罕见。上述前人的研究工作为本文的研究提供了坚实的理论方法基础。本论文在此之上将对现有的代价敏感的CII算法进行改进,并准备对代价敏感缺失值填充的以下几个问题进行讨论与研究:(1)研究现有考虑代价敏感问题的缺失值填充算法的优点与缺点,针对其存在的问题进行算法改进,算法策略思想予以实现,从而做为实验改进算法性能的平台;(2)提出对于代价敏感缺失值填充的有用属性的选择理论,即提出一个有效发现absent事例的方法,从而有效降低系统的填充花费且提高系统精度。
其他文献
随着网络带宽的增加和信息处理技术的进步,人们对多媒体业务的需求越来越广泛。视频编码技术作为多媒体技术中重要的组成部分,早已经成为国内外研究和工业应用的热点之一。国
随着互联网的迅猛发展,基于互联网的各种应用也日益受到人们的重视,特别是现代远程教育得到了巨大的发展。基于web的考试系统正是在这种形势下应运而生的。尽管传统的考试形
学位
2018年12月12日,由河北省工笔画学会、唐山市政协教科文卫体委员会、唐山市文广新局、唐山市文联等共同主办的“庆祝改革开放40周年和唐山解放70周年唐山名家美术作品展”在
期刊
今年入春以来,由于阴雨多,阳光少,气温高,湿度大,在一些基肥中氮肥过多、插秧较密的稻田,发生禾苗过早封行,禾叶铺雾下垂的现象。下面两个方法,是我 Since the spring of t
按照不完全双列杂交试验方式,以20个甘蓝型油菜品种为母本与3个芥菜型油菜品种杂交,配制了60个组合。分析结果表明,母本甘蓝型油菜在种间可交配能力上存在着较大的遗传变异。
我们大队山高,水冷,日照短,霜期长,土层浅薄,生产条件差。全大队耕地面积1320亩,历年来种植水稻,产量不高。从1975年开始改种甘蔗,是一个新蔗区。1977年种植甘蔗704亩,总产5
随着信息技术发展,通过访问内容去审查用户网络访问行为的应用问题逐渐成为备受关注的一项数据建模应用问题。现有的主题模型能够从长度和规模不定的数据中抽取每个数据实例的
新课标明确指出:数学教育的基本目标之一是提高学生的数学思维能力.然而,在实际高三一轮复习教学的过程中,回归课本将原题原做,炒冷饭的现象却比较常见,加之各种高密度、高强
虚拟环境及对象的建模是虚拟现实研究的基本内容。实体对象不但具有几何形体,而且均有自己的行为方式,仅当这些实体对象都以令人信服的方式进行行为选择并展现出合理的行为运
网络流量异常是指网络业务流量突然出现不正常的重大变化。及时发现网络流量的异常变化对于快速定位异常、采取后续相应措施具有重要意义。而随着网络规模和速度的不断增加,