论文部分内容阅读
支持向量机是一种建立在统计理论基础之上的机器学习方法,是统计学习理论中结构最小化思想在实际中的体现,它较好的解决了非线性、高维度、过学习等问题,且被成功应用到语音识别、人脸识别、文章分类等多个领域。然而客观世界存在着大量模糊信息,如果使用支持向量机训练含有模糊信息的样本时,其分类性能将会受到很大影响,因此模糊支持向量机应运而生,对模糊支持向量机的研究无疑成为近年来的研究热点。模糊支持向量机处理不平衡数据集时存在严重分类偏差,且隶属度函数不能准确有效的反映出样本的重要性。针对此问题,本文提出了一种面向不平衡数据集的模糊支持向量机模型。首先,根据正、负类样本数的不平衡比例,引入不平衡因子,接着在进行隶属度函数设计的过程中,结合样本紧密度与样本距离因素,将样本点分为孤立点、噪声点、边界点以及安全样本点,根据这些样本点的不同重要程度分别赋予不同的隶属度。实验结果表明这种方式在处理不平衡数据集,尤其是存在较多孤立、噪声点的不平衡数据时具有较大的优势。模糊支持向量机存在训练时间较长且不能对大规模数据集进行有效训练等问题,为了解决该问题,本文提出一种基于hadoop的模糊支持向量机。该方法结合hadoop平台处理大规模数据的高效性,利用层叠式分层的思想设计mapreduce分层模型,首先对样本集进行等效划分,对划分后的子数据集使用本文提出的模糊支持向量机训练得到支持向量点,两两合并后再次训练,重复以上过程直到得到全局支持向量点集。该方式能够将对大规模数据的处理分而治之,减少训练时间。本文搭建小型hadoop环境进行实验,实验结果表明,本文方法能够在不损失分类精度的前提下大幅降低训练时间。