基于Hadoop平台混核并行支持向量机文本分类的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zxqzxm88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当代,随着科技的发展,移动智能设备的普及,万物联网的方便,信息量的几何级增长,大数据浪潮已然来临。众多海量数据中,文本数据占据了很大一部分。面对日益增长的文本数据,如何存储、挖掘这些数据就变得非常重要。文本分类是很常用的数据处理手段,传统的基于人工的文本分类方法,早已被知识工程和基于机器学习和统计学方法所取代。尤其是在近几十年,基于机器学习和统计的方法应用越来越广泛。目前,已有的基于机器学习和统计学习的文本分类方法已经很难处理越来越多的文本数据,无论是分类器的训练时间过长还是内存的限制问题都需要解决。针对大量文本数据,选用云平台,做分布式文本处理变得很有必要。随着Hadoop分布式开源社区的兴起,很多传统的单机数据存储和处理被转移到Hadoop平台上。本文就是利用Hadoop平台的特性,基于Map Reduce框架,实现大量文本的文本分类。主要包括文本预处理的并行化设计、特征降维的并行化设计、特征权重量化的并行设计以及文本分类器的并行化设计。在逻辑回归、决策树、支持向量机、神经网络、KNN等众多分类算法中,本文选用基于VC维和结构风险最小化的支持向量机作为文本的分类器。SVM虽然具有解决维度灾难、很少过拟合以及分类效果好等优点,但是由于求解最优分类超平面的复杂度很高,在面对大量样本数据时,SVM分类器存在训练时间过长的问题。本文在深入研究了解支持向量机的基础上,探讨了目前已有的一些基于Hadoop机制的并行支持向量机算法,包括层叠式PSVM、分组式PSVM、反馈式PSVM的优缺点,提出了n2反馈式PSVM算法。通过实验验证了新式PSVM降低了训练时间,提高了分类的准确率。同时,对SVM中的核函数进行了深入的研究,在PSVM中引入混合核函数思想。在研究各种已有的核函数后,提出了新的混合核函数。并通过实验验证了新的混合核函数在分类方面的有效性。
其他文献
随着无线通信的发展,协作通信技术引起学者的广泛关注。该技术可以使具有单根天线的移动终端获得类似于MIMO系统中的分集增益,其基本思想是在多用户环境中,具有单根天线的移
静止图像压缩标准JPEG2000是JPEG委员会于2000年发布的新一代静止图像压缩标准。该标准采用具有能量特性更为集中的小波变换方法替代了传统的DCT变换方法,并采用率失真优化截
在现代军事通信与探测技术中,为了提高主动式无线探测系统的抗干扰能力,需要在系统发射端提供各种模式信号。现阶段对于信号的抗干扰研究大多数集中在对信号频率的研究,包括跳频
连续相位调制(CPM)是一种恒包络调制方式。CPM信号包含大量的信号形式,它们的共同特点是信号包络恒定、相位连续,尤其适合于无线通信。首先介绍了CPM信号的一般表达式及其功
Ad Hoc网络是由一组具有路由功能的节点组成的分布式无线多跳网络。该网络是一种新型的无线网络,可以不依赖于基础设施而临时组建。网络中的移动节点能够利用自身的无线收发
演播室是广播和电视媒体各种会议、无线电的重要作用性房间,其主要使用于,文学和艺术节目录制,是广播和电视媒体不可或缺的部门之一,由于功能性演播室的特殊,在装修设计中必
本文研究了3GPP LTE系统上行链路基站间合作的机制及信号处理的方法。包括合作策略,多用户检测,最优功率分配,最大化吞吐率等技术,并进行了性能的比较。在蜂窝系统中,由于高
伴随当代经济水平的快速发展,人们生活水平的不断提高,人们对于精神及物质方面的要求也越来越高.家居环境开始成为人们关注的焦点,而室内设计中的软装饰则成为美化丰富家居环
随着城市道路愈发拥堵、交通事故频发,人们对智能交通、智慧城市的诉求也愈加强烈,本论文在这个大背景下,对车与车之间(Vehicle-to-Vehicle,V2V)的互联通信问题进行研究。当
当今社会,通信在人们生活中的地位和作用越来越重要,通信已经成为社会发展的重要战略手段。随着移动通信网络规模的不断扩大,网规网优成为人们越来越重视的研究课题。集群通