论文部分内容阅读
支持向量机具有很强的泛化能力,具有维数不敏感与收敛到全局最优等优点。由于其分类具有较高的精度,因而在文本、图像及Web分类等方面得到广泛的应用,但是关于支持向量机学习算法研究仍然是该理论的重点和难点内容之一。
本文针对基于支持向量机的分类器训练时间过长问题,提出了三种基于模型分割的并行训练策略,将训练任务划分成若干个子任务,分别采用梯度分配、取余分配和平均分配策略分配到多个从节点进行并行计算。文中应用主从模式实现了上述并行训练算法,通过主节点将各从节点上的训练结果收集、还原,最终生成分类器模型。
梯度分配的训练策略主要将任务等差分配给节点,该策略易于设计实现,但是会导致任务分配不均衡以及限制参与计算的处理器的个数等问题。取余分配的训练策略是将均分后的剩余任务全部分配给主节点,该策略解决了处理器个数受限制的问题,但是从节点分配得到的任务数量仍然可能出现不均衡。平均分配的训练策略根据取余分配方法的缺点而重新设计,将均分后的剩余任务,再按照节点循环的顺序分配,直到分配完毕。该策略解决了前两种策略中节点任务分配不均衡,处理器受限等问题,而且效率也大大提高了。
文中基于自强3000高性能计算机实现了以上三种基于模型分割的并行训练策略,并应用多组数据集进行测试,实验结果表明该算法不仪能够保证多分类的高准确率,而且缩短了训练时间。