Spark平台下的高效Web文本分类系统的研究

来源 :计算机应用与软件 | 被引量 : 0次 | 上传用户:jingliang3334
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对KNN 分类算法在面对海量Web 文本处理情况时在单机上训练和测试效率低下的问题,提出基于Hadoop 分布式平台以及Spark 并行计算模型的无中间结果输出的改进型Web 文本分类系统.同时为了充分利用Spark 的迭代计算能力,在文本向量化阶段,在传统TFIDF 文本特征加权算法的基础上充分考虑特征项在类内和类间的信息分布,提出一种改进的特征加权算法.实验结果表明,该文本分类系统结合Spark 计算模型在提高文本预处理、文本向量化以及K N N 文本分类算法的性能上有着优异的表现.
其他文献
本文从调配色彩、模拟声响、品鉴味道、借助光亮和运用触觉等五个方面介绍了作文描写的一些基本技巧,用具体的实例为据,并进行了简明的评析。这些实例大多是从现实生活中提取
目的:观察右美托咪定在高血压病患者局麻眼科手术中的临床应用效果。方法:60例择期眼科手术的原发性高血压患者,随机分为右美托咪定组(试药组,n=30)和对照组(n=30);右美托咪定组
针对无人机视频航拍过程中出现的图像旋转和实际图像的去变形问题对地面操作人员观察和判断产生的影响,利用高斯滤波的图像处理算法,给出了相应的解决方案,从而实现了航拍实
本文章针对高职高专《电机学》课程考试模式存在的弊端,结合新的课程教学模式,提出了考核模式的改革措施,并结合课程教学进行改革实践,对改革措施效果进行探讨。
近年来志愿者活动飞速发展,但是有效的志愿者管理体系在志愿者组织中尚未建立,志愿者管理工作仍处于初级阶段。针对这一情况,本文在借鉴目前现有的研究成果基础上,以中国矿业
伴随着我国综合国力的不断增强,我国科技水平全面提高,高新电子技术被应用到越来越多的场合。仰仗着愈加发达的科技,全站仪在不断提升自身测量精度的同时,增添了许多新的工能
空预器堵塞已是普遍性问题,严重时会影响机组正常运行。针对一台350 MW燃煤机组空预器出现压差异常现象,结合运行数据,从多方面进行综合分析。启机阶段烟温过低投入脱硝系统,
在阐述民勤县近年来荒漠化状况的基础上,分别从自然因素和人为因素两个方面详细地分析了造成该县荒漠化的原因,提出了在民勤县防治荒漠化进一步扩大的有效措施。(1)节约用水,优化
随着计算机技术的发展及普及,多媒体技术已经悄无声息的走进了人们的生活。可以说,计算机多媒体技术对我们的生活产生了巨大的影响,它改变了人们传统的交流方式,使交流不再受
第二次世界大战后,西方国家广泛对消费者进行消费教育并取得了很好的社会效果。面对我国大学生信息消费堪忧的现状,我国应借鉴域外经验,重视对大学生信息消费观的培养、消费