基于支持向量机的文本并行分类算法研究

来源 :上海大学 | 被引量 : 0次 | 上传用户:KEN_LONG
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
支持向量机具有很强的泛化能力,具有维数不敏感与收敛到全局最优等优点。由于其分类具有较高的精度,因而在文本、图像及Web分类等方面得到广泛的应用,但是关于支持向量机学习算法研究仍然是该理论的重点和难点内容之一。 本文针对基于支持向量机的分类器训练时间过长问题,提出了三种基于模型分割的并行训练策略,将训练任务划分成若干个子任务,分别采用梯度分配、取余分配和平均分配策略分配到多个从节点进行并行计算。文中应用主从模式实现了上述并行训练算法,通过主节点将各从节点上的训练结果收集、还原,最终生成分类器模型。 梯度分配的训练策略主要将任务等差分配给节点,该策略易于设计实现,但是会导致任务分配不均衡以及限制参与计算的处理器的个数等问题。取余分配的训练策略是将均分后的剩余任务全部分配给主节点,该策略解决了处理器个数受限制的问题,但是从节点分配得到的任务数量仍然可能出现不均衡。平均分配的训练策略根据取余分配方法的缺点而重新设计,将均分后的剩余任务,再按照节点循环的顺序分配,直到分配完毕。该策略解决了前两种策略中节点任务分配不均衡,处理器受限等问题,而且效率也大大提高了。 文中基于自强3000高性能计算机实现了以上三种基于模型分割的并行训练策略,并应用多组数据集进行测试,实验结果表明该算法不仪能够保证多分类的高准确率,而且缩短了训练时间。
其他文献
通过使用超大规模集成电路技术和并行架构,计算机的处理能力有了显著的增强。随着处理能力的增强,系统对输入/输出性能的要求也随之提高。磁盘是计算机的主要存储设备,但是其
大规模定制(MC)是批量生产与定制生产的集合,其核心思想是以接近大规模生产的速度和成本快速地满足客户对产品的个性化需求,将传统的面向客户订单的反应式定制转变为面向产品族规
移动计算在人们的日常生活中扮演着日益重要的角色,Mobile Ambients是一种重要的刻画移动计算的进程演算系统。进程演算是描述并发系统的重要模型之一。进程演算的一个核心问
随着互联网的普及和对等计算(P2P)技术和理论的发展,网络用户对于文件共享服务的需求日益增大。为了实现用户之间文件共享的高效性和可靠性,本文对典型的P2P文件共享系统Gnut
PKI(Public Key Infrastructure),即公共密钥基础设施,是以公开密钥技术为基础来实施和提供安全服务的普适性基础设施。PKI技术的主要目的是管理在开放Internet网络环境中使
关联规则挖掘是数据挖掘领域中的一个非常重要的研究课题。它最初提出的目的是用于发现大量数据中不同项集之间的有趣联系。本文在现有数据挖掘研究成果的基础上,对数据挖掘
20世纪90年代以来,人脸识别技术发展迅速,其中非控制条件和非配合条件下的人脸识别是一个极具挑战性的课题,人脸图像的光照和姿态变化导致识别率急剧下降,这两方面的研究已成
异构多核架构是当今处理器发展的主要方向,在单核处理器发展陷入瓶颈的情况下,同构多核处理器通过增加片内核心数量,提高指令执行并行度,达到了提高运算速度的目的。在此基础上,异
信息资源是国家的一种重要战略资源,其存储、开发、利用水平是国家信息占有能力、知识储备能力和科学技术能力的重要标志。高校是国家信息资源建设中的一支中坚力量,是国家信息
在介绍了基于颜色特征的图象检索技术的预备知识和关键技术后,论文重点研究了颜色直方图和一种用于对灰度图象进行检索的灰度直方图算法。针对传统颜色直方图采用的颜色空间