基于Spark的文本分类的研究

来源 :长春工业大学 | 被引量 : 0次 | 上传用户:caiyt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和信息技术的不断发展,文本形式的非结构化数据正在不断的增加。文本分类技术能够有效地对文本数据进行组织和处理,广泛地应用在各个领域。文本分类的预处理、特征选择、文本向量化以及文本分类器的生成都需要较大的时间和空间的开销,当面对大规模的文本数据时,传统的技术并不能满足该需求。大数据技术的出现为大规模数据的处理提供了有效的解决方案,然而Hadoop采用的MapReduce并行编程模型具有一定的局限性,它是基于磁盘的,不能高效地利用计算产生的中间结果,而Spark是一种基于内存的,能非常高效地利用中间结果,并且具有较高的处理速度。本文基于Spark对文本分类的各个过程进行并行化提高文本分类效率。本文先对文本分类和Spark计算框架分别进行了分析研究,然后完成了文本分类的各个过程在Spark平台下的并行化设计,提高文本分类各个过程的处理效率。在特征选择阶段采用χ2统计方法进行特征降维,对该方法进行分析,并针对其中的不足,引入词频因子、类内分散程度以及类间集中程度三种因子对其进行改进。在构造文本分类器时,采用朴素贝叶斯分类算法对文本进行分类,通过对朴素贝叶斯分类算法分析得知该算法中最为关键的是计算特征项在类别属性条件下的概率,将一种改进的TF-IDF算法用于计算特征词在类别条件下的概率。最后,通过实验对比,对本文提出的改进方案的有效性进行了验证,实验结果表明本文提出的改进方案提高了文本分类的准确率,基于Spark计算框架的并行化提高了文本分类各个过程的处理效率,减少了文本分类的时间开销,并且具有可扩展性。在Spark计算平台下对文本分类的预处理、特征选择、文本表示、文本分类器的训练以及对待分类文本进行分类的并行化,提高了文本分类的效率,实现了对大规模文本数据的处理。
其他文献
随着计算机软件行业的飞速发展,越来越多的公司的竞争力依赖于为其提供决策信息的软件产品。软件产品的及时交付,对公司竞争力的极高,有着很大的作用。增量开发模型,作为软件开发
网络技术的快速发展促进了网络教育的不断创新,在网络教育中除了设置相应的学习内容之外,评价学习效果也至关重要。考试则是进行评价的最主要的手段,随着全国网络教育统考机
虚拟现实技术是一项新兴的综合性信息技术,它融合多种信息技术的最新发展成果,广泛的应用到了社会各个领域。中国是个海洋大国,海洋技术在国民经济中有着举足轻重的作用,其中
微粒群优化算法(Particle Swarm Optimization,PSO算法)源于对生物界鸟群群体运动行为的研究,通过群体间个体的合作与竞争来实现对优化问题的求解,是一种群智能优化算法,由于它的原
学位
近年来,随着WWW的迅猛发展,XML成为数据交换事实上的标准,XML数据的应用也越来越广泛。例如:在金融领域,网络安全,制造领域,监控检测领域等。随着研究的加深,对于基于半结构
现代社会的信息化和网络化给人们的生活带来了方便快捷,但随之而来的信息安全隐患也日益明显,加密技术则是解决这一问题的有效方法。2001年11月26日,美国国家标准技术研究所(
胃脘痛(胃痛)是一种上腹近心窝处发生疼痛的疾患,是临床中的多发病。胃镜检查是诊断胃病最常见、最准确的方法,胃脘痛胃镜下表现呈多态性。因此,本文基于胃镜图像对胃脘痛特
作为传统加密方法的有效补充手段,数字水印技术被认为是解决数字化时代数字作品版权保护的一个重要手段,并成为信息安全领域的一个研究热点。数字水印技术是指在数字化的多媒
近年来,作为软件应用的一种重要方式,web服务发展迅速,许多web服务提供相同的功能。服务组合的含义就是把多个小粒度服务组合为一个大粒度服务,它是用户利用多种多样的web服
随着大数据时代的到来,用户对信息搜索的精确度和效率提出了更高要求,而传统的搜索引擎存在着一定的不足。聚类检索是对搜索引擎的返回结果聚类,然后将提取的标签和类簇呈现