海量信息下的文本分类研究与优化

来源 :新技术新工艺 | 被引量 : 0次 | 上传用户:fengfeiyuren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对传统的文本分类方法费时且占用大量资源、效率低等问题,提出了结合大数据处理平台Hadoop和中文文本分类,实现支持向量机(SVM)算法的并行化的模型。通过试验数据分析表明,对比采用传统的单机SVM对样本数据进行训练这个方式,基于Hadoop平台而实现的SVM并行化算法能够改善在对大量样本训练时训练时间长的缺陷,并且分类的准确率也有所提高,尤其是对大量文本进行分类时,Hadoop平台下的并行SVM算法较单机SVM算法具有更大的优势。
其他文献
针对鲜食杏生产中成熟期、品质、抗逆性和丰产性等方面存在的一些问题,沧州市农林科学院从1986年开始,以选育丰产、优质、早熟、抗逆性强的鲜食杏为育种目标,利用当地农家品
期刊
2003年冬,在鲁豫大地上,有辆白色依维柯在来回穿梭。车内满载着济南军区自主择业转业干部事迹报告团的成员,尽管与一股寒流不期而遇,他们依然热情洋溢,昂然前行。
不同直播模式决定枣苗生长带的宽度,生长带的宽度对红枣生长量的影响较大,生长带越宽,苗木的茎粗与高度增加越多;在同一直播模式下,管理水平的差异对红枣生长量的影响也较显著。
本文简要地叙述了俄国十二月党人在1825年12月反沙皇专制的起义失败被流放到西伯利亚之后所进行的活动,分析了他们为未来革命蓄积力量而提出的改造西伯利亚的政治、经济、文
为了解决托辊生产线操作与调试困难的问题,设计了基于SIEMENS 840D的托辊加工生产单元控制系统的硬件连接以及多个按钮站。按钮站采用840D内置SIMATIC S7-300PLC控制,通过PLC
【正】本文是对现代我国重要作家巴金的文学历程所作的回顾和思考。作为一个以鲁迅为主将的新文学阵营的杰出战士和作家,巴金对于我国现代文学做出过多方面的卓越贡献。本文
如何服务干企业自主创新,推动经济社会发展模式的转型是当前人事人才工作面临的重要课题,也为人事人才工作开辟了广阔的天地。当前为了全面推进企业自主创新,优化企业自主创新环
本文指出,在我国当前的经济条件下,全民所有制内部流通的生产资料既具有产品的因素,又保留着商品的某些特征。由这种双重属性所决定,它的流通形式表现为有计划的商品流通。国
【正】“鱼鳞图册”是明代赋役制度的重要组成部分。它的主要作用是准确地掌握编户的土地数量,与“黄册”相辅而行,是赋役立法的依据。《明史》云: 两浙富民畏避摇役,大率