基于Hadoop和Spark的大数据投票特征选择方法

来源 :河北大学 | 被引量 : 0次 | 上传用户:darling1989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据爆炸式的增长,人们获取的数据量越来越大,维度也越来越高,这给传统的机器学习算法带来了严峻的挑战。由于数据维数的大幅度增加,会产生大量不相关或冗余的数据,这些数据不仅浪费了存储资源,而且还增加了学习算法的计算时间复杂度,降低算法的执行效率,甚至降低学习算法的泛化性能。因此,研究大数据特征选择问题,设计有效的特征选择算法,从原始数据中选择出重要的特征,去除不重要或冗余的特征,从而提高机器学习算法的效率和性能是十分有必要的,具有重要的理论及应用价值。本文研究了基于投票机制的大数据特征选择问题,提出了一种基于开源平台的大数据投票特征选择框架,在这一框架中包括两种大数据投票特征选择方法。具体地,本文主要贡献包括以下三部分:(1)提出了基于Hadoop和Spark的大数据投票特征选择方法。提出的方法包括三步:首先,将大数据集合划分为m个子集,并部署到m个Hadoop/Spark计算节点上;然后,在m个计算节点上,用提出的特征选择算法用本地样例子集从特征全集A中并行地进行特征选择,得到m个特征子集A1,A2,…,Am);最后,对于A中的每一个特征(ai)(1≤i≤d),用A1,A2,…,Am进行投票,并根据投票结果,选出最终的特征子集。(2)提出了基于遗传算法的并行特征选择方法,该方法用d位二进制0-1串表示特征子集,用相容粗糙依赖度作为适应度函数,评价特征子集的重要性。在Hadoop/Spark计算机节点上,并行地进行特征选择。(3)在Hadoop和Spark两种大数据平台上实现了提出的方法,在6个数据集上进行了测试。此外,还对基于Hadoop和Spark两种开源框架的大数据投票特征选择方法进行了比较研究,得出了一些有价值的结论。
其他文献
跨海大桥作为交通运输系统的重要组成部分,比传统海上运输更安全、更快捷、更经济。随着跨海大桥数量的急剧增加,为了确保跨海大桥在服役期间的使用安全和防止事故的发生,各种各样的传感器被广泛应用于跨海桥梁监测系统中。但是,传感器所携带的电池能量有限,不能满足持续监测的要求,同时人工更换电池费时费力,废弃电池也会污染环境。因此,利用海洋中存在的可再生能源并将其转化为电能给传感器供电是目前较好的一种解决方式。
随着科技革命的更迭,传统的经济模式已经无法再解释当今经济的快速增长,由此产生了新的经济理论,将创新列为经济发展的关键因素之一。加快产业结构升级是新常态经济下的促进经济发展的主要方式,如何加快产业结构的转化升级,在产业结构升级的过程中,科技金融和市场化水平又扮演者怎样的角色,是探索产业结构升级的关键之处。同样的,市场化水平的高低对科技金融的发展和产业结构的升级都有一定的影响,那么在科技金融作用于产业
弱小目标因其信噪比低和背景复杂度等原因,复杂背景下弱小目标的检测一直是图像处理领域的技术难题;而且基于MATLAB弱小目标检测的软件仿真,与工程实例的应用存在一定的距离
多环芳烃(Polycyclic aromatic hydrocarbon,PAHs)是指分子中含有两个以上苯环的碳氢化合物。近年来由于天然产生和人为活动,土壤和水体中的多环芳烃污染日益严重,对人类健康和
人口老龄化是世界上大多数国家都面临的问题。作为世界上人口最多的国家之一,由于在过去几十年中人均寿命的增加、人口生育率和出生率的降低以及死亡率下降等原因,中国正在面临人口老龄化日益严峻的形势。作为一个转型中的发展中国家,中国在为老年人提供长期护理服务方面面临着严峻的挑战,中国目前的社会保障和福利制度难以满足大多数老年人的长期护理需求,这促使人们需要了解中国老年人的健康转换模式及长期护理需求的时间长度
等几何分析方法旨在CAD和CAE有效的统一,其核心理论是将建造模型用到的非均匀有理B样条基函数也作为力学分析时的形函数,有效的解决了有限元法分析时几何模型与分析模型不一
欧盟是俄罗斯第一大贸易伙伴,欧盟国家经济制裁对俄罗斯实体经济、金融业和宏观经济造成了极大负面影响,如何消除这种影响对俄罗斯经济的稳定与可持续发展意义重大。从实体经
屈曲约束支撑(BRB)具有提高钢结构刚度和承载力的优点,屈曲约束支撑钢框架(BRBF)结构为双重抗侧力体系,具有较良好的抗震性能,因此BRB钢框架广泛应用于日本、美国和台湾等国家和地区。在以往地震中,钢结构梁柱节点易遭受不同程度的损坏,美国北岭地震和日本阪神地震中这一现象表现尤为明显,地震中许多钢结构建筑梁柱节点处发生了破坏甚至脆性断裂,因此为研究梁柱节点和BRBF结构的抗震性能和地震需求性能,研
随着新产品中知识含量的快速增加,知识作为创新设计活动的动力和源泉,已经成为实现创新设计的关键因素。因此,知识启发创新设计技术逐渐成为学术领域的研究热点。设计领域的
随着科学的进步和时代的发展,人们在一天中处于坐姿工作和学习的时间越来越久,坐姿舒适性直接影响着人群的身心健康。为了对久坐人群的身体健康提供一定的保护,弥补座椅设计中的有关缺陷,对坐姿生物力学特性的研究很有必要。座椅的振动舒适性在很大程度上影响着汽车的整体舒适性,同时还直接影响着驾驶员的身体健康,因此对座椅的振动舒适性研究也很有必要。本文首先开展了光学动作捕捉人体坐姿舒适性评价试验,通过建立人体模型