Boruta特征选择算法及其应用研究

来源 :西安财经大学 | 被引量 : 0次 | 上传用户:qq11202365
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代带来了数据量的增长,数据蕴含更多价值的同时也对计算机性能提出了更高的要求。由于缺乏业务和背景知识,过多的分析变量导致计算成本的增加,对数值分析、抽样、组合、机器学习与数据挖掘等问题带来了挑战。对数据集的降维将是一个很好的解决方案,需要在保证建模效果不变的情况下削减变量数量。面对大数据环境下的数据变量存在冗余等现象的问题,本文提出了一种以Boruta特征选择降维算法为子算法的二阶段特征选择方案。本文通过前人对降维算法所研究的基础上,以图像数据为研究对象,采用Boruta特征选择算法结合智能优化算法对MNIST数据集与JAFFE数据集进行建模实验。在一阶段方案设计中,使用随机森林回归、随机森林分类、梯度提升分类等8种模型作为Boruta的子模型,结果显示使用不同的子模型表现出不同的特点,适合不同类型的数据集,其结果也不一。接着在一阶段降维基础上设计二阶段的启发式优化算法,二阶段的使用明显提升了预测精度,并根据第二阶段的特点设计了追加实验阶段,使整个方案再次降低5%至30%的变量。最后设计了用来评价模型稳定性的稳定性系数指标。结果显示,二阶段Boruta特征选择算法有助于数据的降维,在加快建模速度的基础上还提升了模型在测试集上的预测精度,稳定性也较降维前有所提升,由此说明本文提出的对大数据集的二阶段特征选择方案具有较强的可实施性与可靠性。文章最后收集大量的“明星脸”数据,用本文提出的降维方案进行降维后建模进行人脸识别项目,结果显示在更复杂的人脸数据中该方案有效,并且利用该方案制作了一款人脸识别小程序,未来可应用在工程或商业领域。本文的创新性体现在开发了一种二阶段的特征选择方案,将已有的Boruta算法与智能优化算法进行结合,可根据具有不同特性的数据选择最优降维方案,同时建立了用来评价模型稳定性的系数,为现有降维理论和应用进行了补充。
其他文献
随着经济的快速发展,工业的污染源和排放量也逐渐增多,使得空气污染问题越加凸显。空气质量不断恶化对国民经济可持续发展及人民的身体健康都造成了巨大影响,对空气质量预测不仅可以为相关职能部门提供未来一段时间的空气质量指数及各污染物浓度信息,助力其有效的开展防护工作;同时也提高公众对当前空气质量形式严峻的意识,提高人民参与到空气质量乃至各项环境保护的积极性。因此,建立高精度的预测模型对空气污染的防控和保护
学位
写作是初中语文学习的重要内容,写作教学受到了师生的广泛关注。但当下写作教学仍有一些问题存在,如教师畏惧写作教学、教学效果不佳,学生对写作提不起兴趣、写作思维混乱等。2021年,“双减”政策实施,义务教育阶段的“减负”与“提质”又对写作教学提出了新要求。现存的写作问题与新时代的教育改革正呼唤着新写作教学理论与模式的诞生。早在“双减”之前,已有研究者将解决写作教学问题的目光看向课堂“提质”,“微型化写
学位
在当前语文教学中,人们注重教师的教学内容和教学方法,却对于教师教学思维的重要性缺乏深刻的认识。教学思维是一种存在于教师内部的、特殊的教育能力,它不仅反应了教师的认知水平和教学水平,还是制约教学活动的开展和取得教学成效的关键因素。因此,了解初中语文教师教学思维水平的现状,找出当前语文教学思维存在的主要问题,为提高初中语文教师的教学思维以及开展有效教学提供有益的借鉴和启示。笔者采用文献研究法,对教学思
学位
贫困问题是重要的经济与民生问题,不同程度存在于全世界各个国家之中。改革开放以来,我国先后制定并实施了一系列扶贫措施,并取得了一定成效。2013年习近平总书记提出“精准扶贫”战略,更是将这一问题列为了我党工作的重中之重。在这一过程中,我们需要去科学评估当前扶贫工作所取得的成绩和不足,以便更好地为下一阶段政策制定与工作开展提供可行的建议。与此同时2020年是我们脱贫攻坚战略的决胜之年,随着全面脱贫工作
学位
在抽样调查过程中,数据来源越来越复杂,抽样环境也发生了较大的变化,对于辅助信息已知,总体未知或者抽样框编制起来困难的总体,传统的抽样方法首先是随机抽取样本,但是调查者对随机抽取的样本是否是概率样本存在疑虑,因此需要采用新的方法检验随机抽取的样本是否为概率样本;对于全部信息未知只知道一部分信息的总体,传统的抽样方法首先会对总体进行假定,这就可能会导致总体无法估计或者估计偏差较大,从而对总体规模推断不
学位
随着我国农村经济的快速发展,社会劳动生产水平的快速增长,农村居民幸福感也逐渐提升。但经济的无序发展伴随而来的是农村生活垃圾排放量的与日俱增和农村生态环境的治理困境。农村地区逐渐出现“垃圾围村”、“垃圾填塘”、“污水河里流,垃圾随风走”等环境污染现象。随着农户对生态环境需求日益提升,农村生活垃圾治理工作刻不容缓。当前,我国农村生活垃圾源头减量治理出现明显的地域差异,发达地区农村生活垃圾减量化治理政策
学位
随着互联网时代的到来,人们使用智能手机的频率和时长的增加,其产生的用户信息数量呈爆发式增长,导致信息过载问题较为严重。如何解决信息过载问题,实现数据价值最大化,是大数据时代所面临的难题之一。如何帮助用户在最短时间内获得自己感兴趣的商品,帮助企业售出更多的商品达到增加收益的目的,是大数据时代的另一难题。为解决上述问题,个性化推荐算法的研究获得了该领域专家的青睐。为解决上述问题,提高推荐系统的精准度,
学位
时间序列分析作为一种重要的预测方法,已被广泛的应用于社会生活和科学研究中。分位数回归模型刻画平均位置的影响,得到更多分位点的模型趋势。Lasso方法是在给定回归系数的约束条件下,使得残差平方和达到最小值,该方法保留了子集收缩的优点。将分位数回归运用到时间序列模型框架下,利用Lasso方法建立分位数自回归模型,则可以准确的描述局部信息,增加时间序列模型的应用范围和预测能力。论文将Lasso方法定阶和
学位
随着我国经济体制改革的不断深化,经济增长方式发生了根本性的转变,由注重经济增长速度转化为追求经济增长质量,人们也愈发关心自身健康和生存环境的质量。如何协调经济发展、居民健康与环境质量之间的关系,成为社会各界长期关注的热点问题,深入了解三者之间的影响关系及传导机制具有重要的理论及现实意义。首先,本文对有关绿色发展、居民健康和经济可持续增长两两作用关系研究文献进行了梳理,结合相关理论基础,以陕西省数据
学位
我国是一个海洋大国,海疆辽阔,岛屿众多,海岸线漫长,海洋渔业资源独特且丰厚,优良的地理位置和丰富的海洋渔业资源给我国给沿海地区渔业生产带来了便利条件,沿海渔民长期耕海牧渔,形成了与农业社会不尽相同的海洋渔业社会。民国时期是我国近代化的重要转型期,渔业也在这一时期出现了近代化的萌芽。渔业作为农业的一门分支,研究重视程度不高,以往学术界对于民国时期的渔业相关研究大多只注重渔业生产,且研究通常限于一隅,
学位