不完整数据集的多视角集成分类研究

来源 :安徽大学 | 被引量 : 5次 | 上传用户:grace_925
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着通讯技术,物联网技术,传感器技术等技术的迅速发展,当今几乎在任何地方都可以产生数据。这些实际应用中获取的数据,往往由于各种各样的原因会出现数据缺失的情况。例如,在调查问卷中,由于接受问卷者个人原因,一些问卷会出现拒绝回答的项目;在生物信息中的基因表达数据中,由于芯片的擦痕,灰尘等原因,同样会导致部分数据的缺失。考虑到传统的机器学习技术往往针对的是完整数据,因此,如何处理不完整数据成为了机器学习中的一个重要的研究课题。当前对不完整数据集分类的研究,如对缺失值进行填充等,多数方法都需要依赖一些假设,比如随机缺失(MAR)假设,属性独立性假设等。集成学习方法作为不完整数据集的一种有效的处理方法,与缺失值填充的方法相比,其最大的优点是不依赖MAR假设,但是当前集成方法在处理不完整数据集时仍然面临着诸如时间复杂度高,算法效率不够理想等问题。粒度计算是近年来人工智能领域中模拟人类思维求解问题的新的方法。它涵盖了所有有关粒度的理论、方法和工具,已成为不确定性、模糊性、复杂性问题求解以及海量信息处理的重要工具。粒度计算的主要理论模型包括粗糙集理论,模糊集理论以及商空间理论。其中商空间理论是多粒度计算的主要理论模型。本文针对不完整数据集数据缺失的特点,基于商空间理论中的多侧面、多视角问题求解的思路,提出针对不同缺失属性组合构造多个不同视角的分类器,以及对各个分类器重要度的度量方法,并在此基础上研究了多视角分类器的优化方法。同时本文针对癌症基因表达式数据的特点,提出首先进行属性选择,然后利用选择性的多视角集成方式实现多视角的集成分类。本文的主要研究内容概括如下:(1)研究不完整数据集多视角分类器的构建及重要度度量方法基于不完整数据集中存在的不完整属性的组合,构建不完整数据集对应的缺失属性树。基于该缺失属性树,得到一组数据子集,同时利用神经网络作为基础分类器,采用Bagging策略在每个数据子集上训练得到一个子分类器,对于一个测试样本,算法首先选择合适的子分类器对其进行预测,然后利用多数投票的方式决定其最终的类别。本文同时引入了信息熵来度量子分类器的重要度,并具体研究了几种不同的加权方法对算法准确率的影响。(2)研究不完整数据集多视角分类器的优化方法在缺失属性树的基础上,针对神经网络集成分类方法在子分类器过多时,算法复杂度过高的问题,提出了一种多视角集成分类的优化方法(SNNE)。该方法通过判断缺失属性树中对应的缺失属性集(有效属性集合)之间的包含关系以及两者与类别的相关度,在保证算法可预测率和准确率的基础上,通过一个给定的阈值删除一部分冗余的数据子集,通过减少子分类器个数,有效的提高算法的执行效率。实验表明,在给定阈值为0.05的情况下,算法能够在保证准确率的基础上有效的提升执行效率。(3)研究了基于卡方检验和超限学习机的多视角集成分类方法针对不完整数据集中存在的与类别的相关度非常低,对分类的精度有着不利的影响的属性。本文提出了一种基于卡方检验的属性选择方法(C_ELM),该方法通过将传统的卡方检验应用到不完整数据集中,通过一个给定的阂值,选择删除部分与类别相关性较小的属性。同时考虑到,传统的神经网络由于采用梯度下降方法而造成时间复杂度过高的问题,利用超限学习机作为基础分类器,在缺失属性树的基础上,构造一组基于投票的超限学习机(v-elms)。针对由于缺失值导致的少量的样本可能无法找到合适的分类器进行预测的问题,我们又利用单属性训练得到一组备选分类器用来解决此类样本的分类问题。实验表明,通过删除不相关属性和采用ELM,该方法能够有效的提升算法的预测精度和稳定性。(4)研究癌症基因表达数据的选择性多视角集成分类方法本文针对癌症基因表达式数据样本较少且维数(基因个数)较高的特征,提出了利用卡方检验进行特征选择,并依据相关度的大小对剩余的基因进行相关度的排序,按照best first search (BFS)的策略,提出了一种基于BFS的选择性多视角集成分类算法。实验表明,该方法能够有效的删除大量的不相关属性,同时通过选择最重要的属性能够有效的提升预测的精度。
其他文献
本世纪五十年代以来,对企业绿色赋有防污的要求,本文地防污绿化的概念及要求进行了论述,为工矿的绿化工作提供了科学依据。
从教师评价的角度对中学校长信息化领导力实施问卷调查,通过Mplus7软件对数据进行结构方程模型分析,结果表明:中学校长的信息技术能力对其信息化规划能力具有直接的正向作用
粗糙集作为不确定性分析的重要数学工具,在人工智能、数据挖掘、模式识别等领域被广泛应用。经典的Pawlak粗糙集模型存在只能够处理字符属型数据的局限性。近些年来,国内外众
阐述了通过“简异”化学实验的创设,增加化学实验的趣味性,激发学生的好奇心和求知欲;提升化学实验教学的探究性,培养学生的探究能力,实现化学知识的系统建构;引导学生理性质疑
90后大学生作为当代大学生的主体,他们受经济社会和科技快速发展的影响,思想上的迷茫和价值观的多元化使得我们高校的意识形态工作显得更为重要。本文着力探讨意识形态工作的
目的:探讨中医药在慢性心衰康复中的应用现状。方法:从心衰康复的五大处方出发,梳理了近年来中医药在慢性心衰康复治疗中应用的相关研究。结果:中医药可在慢性心衰康复的多个
目的探讨累积高血压暴露和臂踝动脉脉搏波传导速度的关联。方法在参与开滦集团第1次健康体检(2006年~2007年)的101510名开滦职工中,按照分层随机抽样标准方式抽取观察对象,其
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
不确定非线性系统的反馈控制是控制理论中一个热点研究领域,广泛应用于机器人系统、航天系统、电力系统、经济系统等.与线性系统相比,非线性系统对实际系统的描述更精确,但研
研究从近年来农村地区特色资源的保护现状入手,简单分析城乡统筹工作背景,并以南京市农村地区的特色资源普查试点工作为例,探索农村地区特色资源的类型、普查方法、普查工作