论文部分内容阅读
信息时代,互联网每天都在产生着大量的数据,包括文本,音频,视频等等形式。如何提供快速有效的方法,在数量如此惊人的数据中获得有效信息,是时代向数据挖掘领域提出的挑战。当前,Apache Spark并行计算框架已经成为了大数据领域最为重要的一种工具。支持向量机(Support Vector Machine,SVM)是一种被广泛使用的经典模型。结合核函数,SVM能够获得更为准确的非线性模型,但其求解复杂程度较高,传统求解方法不利于求解较大规模的数据集,且难以进行并行化加速。基于此,本文引入了基于聚类的核矩阵内积过滤方法,通过将原始二次规划问题分解成多个子问题来支持并行训练,提出并实现了一种基于Spark的多重子模型并行支持向量机算法(Multiple Submodels Parallel Suport Vector Machine,MSP-SVM)。实验表明,MSP-SVM能够有效利用Spark集群提高模型训练速度,对比MLlib-SVMWithMiniSGD,MSP-SVM只消耗可接受的额外开销获得接近LIBSVM的建模分类准确度。目前,Spark框架多用于处理文本格式数据,对于视频等其他非文本数据的处理应用较少。随着互联网视频内容的爆发增长,对大规模视频数据进行分析处理的需求也逐渐浮现,同时在图像领域,深度学习在模式识别与特征抽取方面都表现出了空前的优势。基于此,本文提出并实现了基于Spark的大规模视频处理方法,将视频帧序列化为图片格式,并通过引入OpenCV,CaffeOnSpark等开源工具,实现了大规模视频数据的图像特征提取,结合本文实现的并行SVM算法,进行了人脸识别,表情识别的应用,并将所有实现的算法与功能设计成组件,进行了大数据挖掘平台的系统集成。