机器学习中的特征选择算法研究

被引量 : 0次 | 上传用户:jianweify
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征选择是目前机器学习领域的研究热点之一,基因工程,文本分类,图像检索等大规模机器学习问题的不断涌现,迫切需要准确性和运行效率等综合性能较好的特征选择算法以及机器学习算法。近年来的研究表明许多机器学习算法受不相关或冗余特征的负面影响,而通过选择合适的特征选择算法,可以有效的去除不相关的特征和冗余特征,提高学习算法的泛化性能和运行效率,得到更加简单和容易理解的学习模型。本文首先介绍了特征选择的基础知识,并简要介绍了两种典型的特征选择算法。特征选择算法主要分为Filter和Wrapper两大类,Filter算法运行速度快、而Wrapper算法准确率高。为了充分利用两者的优点,本文提出了一种基于互信息和遗传算法的特征选择算法,即MI-GA算法,实验表明该算法的运行速度较快,得到的特征子集维数较小,并且分类器在该算法得到的子集上具有较高的分类准确率。集成学习也是近年来机器学习的研究热点,提高个体分类器的精度,增加个体分类器间的差异,可以有效的提高集成学习的泛化性能。而特征选择是提高分类器精度并增加个体分类器差异的有效方法,因此本文将特征选择应用到集成学习中,提出了一种基于交叉验证和ReliefF的集成学习算法(CVReEn),通过在UCI数据集上的实验,表明了该算法可以有效的提高集成学习的泛化性能。特征选择主要集中在监督学习中,无监督的特征选择研究还不多,本文对无监督的特征选择算法进行了初步的总结,并对一种典型的Filter无监督特征选择算法做了较为详细的介绍。本文最后对研究工作进行了总结,并指出了今后进一步的研究方向。
其他文献
公共文化服务是现代政府公共服务的重要组成部分,是我国文化建设的新领域。目前我国公共文化服务实践和理论研究还处于起步阶段。迄今为止,全国还没有公认成熟、权威的关于公
<正>白滨、陈丽、斯蒂芬·J·斯威森比在《开放教育研究》2014年第1期中撰文,通过对英国开放大学15名专业人员访谈结果的分析,指出课程开发、学习支持服务、教学管理和专业教
<正> 金银花为常用中药,主要来源于忍冬科植物忍冬Lonicera japonica Thunb.的干燥花蕾,有些地区也把红腺忍冬L.hypoglauca Miq.的花蕾作金银花药用。在应用过程中尚发现同科
目的:探讨腹膜后副神经节瘤的CT表现特征。方法:回顾性分析10例经手术病理证实的原发性腹膜后副神经节瘤CT资料,并与病理结果进行对照分析。结果:病灶均为单发,6例发生于腹主
<正>5月18日,国务院办公厅批转了国家发展改革委《关于2015年深化经济体制改革重点工作意见的通知》(以下简称《通知》)。《通知》要求推动信用保证保险领域产品创新。其实,
<正>随着3月底国家发展改革委、外交部和商务部联合发布《推动共建丝绸之路经济带和21世纪海上丝绸之路的愿景与行动》,筹划近一年半的"一带一路"总规划终于正式出台。这也意
文化圈、共同语言、民族国家、地方性等不同意义上的多元文化已经通过电影文本、电影生产与传播等形成了全球电影多元文化格局,建构既具有权利差异又在诉求平等交流的秩序关
对幼龄梨树拉枝,可使幼树树冠扩大,叶幕建成加速,长枝增多,长度缩短,果枝比例增大。拉枝后总叶面积增大,树冠内膛光照减少,单位叶面积光合速率下降。拉枝处理增加各品种花序和座果量
<正>我国是劳动力人口大国,对外劳务输出应该具有极大的发展空间。但由于种种原因,我国对外劳务输出存在诸多问题,严重阻碍了对外劳务输出的发展。
农业旅游是农业与旅游业交叉所产生的新型旅游产业,它具有扩展农业、旅游业发展空间、实现高效农业、生态农业和农业可持续发展等多种功能,拥有广阔的市场前景和强大的生命力