【摘 要】
:
支持向量机是一种十分有效的监督式机器学习方法,被广泛应用于统计分类以及回归分析中。但是,支持向量机面对大规模的训练样本集,依然需要占用庞大的内存和花费很长的时间。针对
论文部分内容阅读
支持向量机是一种十分有效的监督式机器学习方法,被广泛应用于统计分类以及回归分析中。但是,支持向量机面对大规模的训练样本集,依然需要占用庞大的内存和花费很长的时间。针对这两个问题,本文提出一种基于Hadoop平台的分布式支持向量机训练方法。这种方法不仅能够有效整合各个节点并行计算优势解决内存占用大及训练时间过长的问题,还提供了可靠的数据存储和处理能力,可扩展的分布式能力以及高效的负载机制。分布式支持向量机首先把大规模的训练样本集随机切分为份子集,并对每个训练样本子集分配并行训练任务,把样本集中的大量非边界样本剔除,得到支持向量对应的边界样本集。然后,整合这些边界样本集重新切分到份子集,并对每个边界样本子集分配训练任务,得到该子集对应的局部支持向量机。最后通过整合所有局部支持向量机,得到最终的全局支持向量机。实验表明,这种方式能够保证准确率不降低的情况下,在效率上有明显提升。本文结合HOG和LBP特征描述器,在INRIAperson人物检测图像数据集上作特征提取,并在三台实验室机器上搭建小型的Hadoop平台上完成人物检测实验。实验证明,在样本数目为9774个,维度为9975的人物样本集训练过程中,基于Hadoop平台的分布式支持向量机训练时间是单机支持向量机训练时间的15,而准确率只相差了0.1%。
其他文献
钢铁工业是国民经济的基础产业。在国家经济快速发展的形势下,钢铁工业呈现出跳跃式发展的态势,钢产量近几年不断提高。随着钢渣作为炼钢工艺流程的衍生物年产量随着钢产量的
城镇化是经济社会现代化过程的核心内容,其背后必然需要产业的支撑。在世界城镇化发展过程中,一些发展中国家由于没有考虑到自身特殊初始条件的制约,在实践中城镇化进程缺乏
历史街区的保护与更新一直是我国城市规划的难点。自国务院公布全国第一批历史文化名城以来,我国的城市保护工作虽然取得了一定的成绩,但由于缺乏社会共识和法律保障,加之城
供应链管理作为一种新型的企业竞争形式,已经得到许多企业的高度认可,而供应商管理是供应链管理的源头,是企业组织生产的先决条件,是企业提升其竞争能力关键环节,是与市场相
20世纪90年代以来,随着信息和通信技术的迅猛发展,离岸金融服务外包以其降低成本、技术密集度高、附加值大、资源消耗低、吸纳就业能力强等多重优势,吸引越来越来的发达国家
本论文以不同产地,籼、粳两个品种的糯米为原料,磨制成糯米粉,测定了不同产地的糯米粉的各项理化性质,确定糯米的各项成分及理化性质的范围;通过相关性分析确定影响汤圆品质
预应力混凝土连续刚构桥能够满足特大跨径桥梁的受力要求,除梁两端以外主跨范围内无伸缩缝,有利于行车平顺舒适,还具有结构整体性能好、抗震能力强、承载能力强、施工快捷、
测定热辐射强度与距离关系时仪器直接暴露在空气中,空气对辐射的吸收导致热辐射测量值不准确.考虑空气对实验的影响,在理论推导过程中引入差分方法,利用最小二乘法拟合数据,
我国当前贫富差距加大,社会矛盾日益突出,遗产税作为税收政策的一项可以调节收入差距的工具,是应该及时征收还是应该暂时搁置,近年来一直是争论的焦点。本文通过理论分析与实
本文用倡议联盟框架对从2001年持续到2009年的厦门PX项目政策变迁的案例进行了分析,并以此解释我国地方政府公共政策变迁的一种原因。通过研究发现当民众的政策核心和地方政