基于Hadoop自动文本分类的研究与实现

被引量 : 0次 | 上传用户:ilbgsm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的快速发展以及互联网的普及,网络上的信息数据呈指数幂级增长。在这些海量数据中,类似于Web文本结构化或半结构化的数据居多,因此如何快速的在网络上查找定位用户需要的有效信息成为一项迫切需要解决的问题。为了提高用户查找效率和准确率,对这些结构化或半结构化文本数据有效的整理分类是至关重要的。虽然分类技术已经发展到一定成熟阶段,但是面对海量数据时,由于计算机硬件发展速度永远赶不上客户需求的速度,面临着如何在现在有的硬件基础上实现海量数据高并发处理,以及快速响应的挑战。因此本文的研究目的在于设计和实现了一种大规模文本自动分类系统。在面临海量数据呈指数幂级增长和分类需求迫切,以及云计算兴起和分类技术相对成熟的背景下,提出了一种基于Hadoop文本自动分类设计与实现的方法。首先,对Hadoop系统框架进行研究,包括其子项目MapReduce和Hadoop分布式文件系统(HDFS)的研究,然后建立配置Hadoop集群系统。其次,对当前成熟的分类技术和算法,文本向量化,文本预处理,特征词选择进行研究,并制定文本分类模型。最后,基于Hadoop系统集群下,采用Linux脚本对文本分词、去停用词和词根还原等处理,采用MapReduce编程模型对特征词选择过程,文本向量化过程、训练学习过程和检验测试过程等处理。该文本自动分类系统降低了对硬件的要求,节约成本,满足了海量数据高并发处理的需求,提高了数据处理速度和效率,具有较大的实际应用价值。
其他文献
随着我国城市化步伐的不断加快,新生代农民工作为一个新型劳动群体在城市中茁壮成长。这一群体弥补了城市化过程中城市人力资源的不足,也转移了农村的剩余劳动力,担负着加快我国
延迟满足是一种甘愿为价值更大的长远结果而放弃即时满足的抉择取向,以及在等待过程中表现出的自制能力。它是个体自我控制的核心组成和重要技能,对个体成长和环境适应都起到积
目的:通过对60例混合型足癣患者随机采用“止癣方联合新脚气膏”或“足光粉联合新脚气膏”治疗的临床观察,研究两种方法治疗手足癣的主要疗效、有效率、真菌清除率、瘙痒程度
近二十年来机器人技术发展非常的迅速各种用途的机器人在各个领域获得广泛的应用。由于光纤激光切割技术的兴起机器人更是以其巨大的优势在激光切割领域得到了广泛的应用。在
研究了完全耦合正倒向随机控制系统的动态规划原理和最大值原理之间的联系,其递归效用泛函由受控完全耦合的正倒向随机微分方程的解给出。主要结果是在一定的光滑性假设下,给
随着教育改革不断发展,教育信息化已经成为不可避免的发展趋势。信息技术作为一种先进的教学手段,对于打造课堂起着关键性作用。小学作为我国基础教学的开端和重要组成部分,
先天性心脏病是一种较为常见的儿科类疾病,同时也是严重危及婴幼儿生命的主要病症之一。已有的临床诊断方法,大都是基于传统的二维超声成像技术对先心病进行诊断,难以提供较
濒危物种是全球生态系统中不可或缺的组成部分,作为《濒危野生动植物种国际贸易公约》(以下简称“CITES”)的缔约国之一,中国积极参与濒危物种的保护工作。当前,涉及濒危物种的非
中职音乐教材始终重视对民族民间音乐的接纳,可是在实际教学过程之中,课堂对于这部分内容的接纳却一直不是特别理想,最主要问题是教的过程与学的过程相脱节,没能呈现出互动教
美国教育学家内尔·诺丁斯的关怀伦理思想倡导'关心性'关系的建立,包括关心者和被关心者之间角色的定位和学生持续关心能力的培养,其目标是培养会关心的人。该文