基于Hadoop平台的海量文本分类的并行化

来源 :计算机科学 | 被引量 : 0次 | 上传用户:houyangpeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是信息检索与数据挖掘的研究热点与核心技术,近年来得到了广泛的关注和快速的发展。近来年随着文本数据呈指数增长,要有效地管理这些数据,就必须在分布式环境下用有效的算法来处理这些数据。在Ha-doop分布式平台下实现了一简单有效的文本分类算法——TFIDF分类算法,即一种基于向量空间模型的分类算法,它用余弦相似度得到分类结果。在两个数据集上做了实验,结果表明,这一并行化算法在大数据集上很有效并可以在实际领域中得到良好的应用。
其他文献
Contemporary office buildings have been calling attention for intense use of glass on their façades.This way,glazed areas in such buildings may favor the a
今天,信息技术已经完成了对社会生活各个领域的全面渗透,信息正逐步成为国家发展的重要因素和国家主权的构成维度,尤其在金融、电信、能源等支撑国家经济、社会运行的战略行业。
The SINTEF Building Research Design Guides are a series of Norwegian building technical recommendations.The design guides are highly reputed and widely used in
控制理论已被应用于Web服务器中,以改进其QoS性能。但当Web负载剧烈变化时,已有的基于反馈的比例延迟控制的实时性往往不佳。分析了HTTP1.1请求页面中嵌入URL的个数和嵌入文件大
提出一种基于Bhattacharyya距离测度零序电流相似性的配电网小电流接地系统故障选线方法,克服小波变换等暂态选线方法存在的难以确定能量频段的问题。通过对不同故障条件下小
《肝血管瘤诊断和治疗多学科专家共识》2019版,由国际肝胆胰协会中国分会肝血管瘤专业委员会牵头并联合多学科专家制定,从肝血管瘤的流行病学、诊断、临床分型、治疗指征及方
一,引言随着网络信息化的快速发展,许多地方的业务系统已经由C/S模式转为B/S模式,对界面的要求从简单变得更为复杂和美观.这样的发展趋势需要更多的网络带宽支持,即使网络的传输速
新技术与网际网络的快速成长,为不法分子提供了更多银行现金欺诈的途径,如ATM欺诈的相关案例正呈高发态势。近几年来,随着新技术与网际网络的快速成长,传统金融犯罪的区域限制正
移动互联网时代,移动通信与互联网的融合度越来越高,两者交汇的领域呈现出全新的技术革新和发展趋势,伴随着移动互联网浪潮席卷而来的是移动终端,它让人们充分感受到互联网和科技
本文以巩县白瓷技艺入手,从巩县白瓷的造型、釉色方面来进行创新,还将从历史文化与科学艺术的角度来进行探索,结合高校教育优势资源,进行优势互补。对巩县白瓷的传习、手工艺