基于Hadoop的模糊支持向量机算法研究

被引量 : 0次 | 上传用户:xjl002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
支持向量机是一种建立在统计理论基础之上的机器学习方法,是统计学习理论中结构最小化思想在实际中的体现,它较好的解决了非线性、高维度、过学习等问题,且被成功应用到语音识别、人脸识别、文章分类等多个领域。然而客观世界存在着大量模糊信息,如果使用支持向量机训练含有模糊信息的样本时,其分类性能将会受到很大影响,因此模糊支持向量机应运而生,对模糊支持向量机的研究无疑成为近年来的研究热点。模糊支持向量机处理不平衡数据集时存在严重分类偏差,且隶属度函数不能准确有效的反映出样本的重要性。针对此问题,本文提出了一种面向不平衡数据集的模糊支持向量机模型。首先,根据正、负类样本数的不平衡比例,引入不平衡因子,接着在进行隶属度函数设计的过程中,结合样本紧密度与样本距离因素,将样本点分为孤立点、噪声点、边界点以及安全样本点,根据这些样本点的不同重要程度分别赋予不同的隶属度。实验结果表明这种方式在处理不平衡数据集,尤其是存在较多孤立、噪声点的不平衡数据时具有较大的优势。模糊支持向量机存在训练时间较长且不能对大规模数据集进行有效训练等问题,为了解决该问题,本文提出一种基于hadoop的模糊支持向量机。该方法结合hadoop平台处理大规模数据的高效性,利用层叠式分层的思想设计mapreduce分层模型,首先对样本集进行等效划分,对划分后的子数据集使用本文提出的模糊支持向量机训练得到支持向量点,两两合并后再次训练,重复以上过程直到得到全局支持向量点集。该方式能够将对大规模数据的处理分而治之,减少训练时间。本文搭建小型hadoop环境进行实验,实验结果表明,本文方法能够在不损失分类精度的前提下大幅降低训练时间。
其他文献
地铁测量是地铁建设工程的一个重要组成部分,为使地铁测量更好地服务于地铁工程建设,确保地铁施工的高质量和高安全度,在实践的基础上提出了地铁施工精准测控的思想,给出了地
<正>龟苓膏是一种历史悠久的传统药膳品种,相传最初是清宫专供皇帝食用的名贵补品,是宫廷内常备的保健养生用品。龟苓膏以鹰嘴龟和土茯苓为主要成分,鹰嘴龟是名贵的中药,可清
<正>2014年已经过去,在过去的一年的品牌营销案例中我们也能看到一些新的趋势,向移动互联网迈进已经成为很多品牌主在2015年的必选营销方式,这种标配也让移动端的开发和运用
介绍了因PT(电压互感器)二次回路故障引起的继电保护装置误动或拒动事件,分析了PT二次回路多点接地引发的继电保护装置误跳闸事故原因,提出了相应的防范措施,对保障电网及继电
为提高低渗高含水油井产量,降低含水,以满足中高含水期油藏稳产和提高采收率的需要,通过室内实验研制出一种选择性堵水剂,堵水率在85%以上,是堵油率的4~5倍,具有较高的选择性
<正>隔壁狐妖说,报恩最好的办法就是嫁给人类,要不,我也嫁给你,怎么样?作者有话说:写这个故事是因为想起了金庸先生的《飞狐外传》,里面袁紫衣离开胡斐时说:由爱故生忧,由爱
综述了影响金属罐减量化进程的诸多社会因素,详细介绍了马口铁罐减薄化应用涉及到薄钢板改进,印铁制罐设备改造,封罐控制标准的优化等诸多技术影响,并对这些影响提出了改善措
采用搅拌摩擦焊方法对2219-T6铝合金进行焊接,对焊接接头的宏观形貌、显微组织、拉伸强度、显微硬度进行了分析。结果表明,焊核区组织为细小的晶粒,热机影响区组织为弯曲变形
普通话是规范的汉民族共同语,而普通话的基础实际上是北京话。长期以来,学者们对北京话进行了多方面的研究,包括北京话语言的历史演变,北京话词语,北京话语法等,但对北京话的