基于Hadoop和SVM算法的中文文本分类的研究与实现

被引量 : 10次 | 上传用户:seuarchi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,各式各样的信息爆炸式的增长,这些信息为我们提供了丰富的信息的同时也给我们带来了烦恼,如何能够快速准确的从海量的信息中提取对我们有价值的信息显得非常重要。文本分类是数据挖掘的基础,能够为我们有效准确的从大量文本信息中挖掘出有价值的信息提供了重要的保障,所以如何快速准确的对大量文本进行分类是数据挖掘中的一个关键的问题。本篇论文首先介绍文本分类以及Hadoop的发展和应用,对Hadoop的两大核心分布式文件系统和分布式计算框架进行深入研究,分析了分布式文件系统的工作机制以及分布式计算框架的工作原理。其次对文本分类的流程及关键技术进行研究,在一些关键技术中比较了中文文本分类与其他语言文本分类的不同,并选择分类效果较好的SVM算法作为研究对象,对SVM的理论知识进行研究分析。然后结合大数据处理平台Hadoop和文本分类,在MapReduce框架下实现了文本预处理、特征选择、权值计算以及SVM算法的并行化。为了研究Hadoop平台下SVM中文文本分类的效果,搭建一个小型的Hadoop集群,并在集群中通过实验对SVM中文文本分类的训练时间和分类准确率进行分析。通过实验数据分析表明,采用传统的单机支持向量机对样本数据进行训练,不仅费时还会占用大量的计算资源,数据量过大时可能会导致出错甚至机器崩溃。而本文设计的基于Hadoop平台而实现的SVM并行化算法能够改善在对大量样本训练时训练时间长的缺陷,并且分类的准确率也有所提高,尤其是对大量文本进行分类时,Hadoop平台下的SVM算法较单机SVM算法具有更大的优势。
其他文献
“三农”政策提出,是国家对农业发展、农村建设、农民增收的目标要求。近年来,国家对农业领域的投资力度日益加大,随着现代社会的不断发展、人民生活水平的不断提高,社会公众
分析了我国畜禽生长主要面临的威胁、提高动物福利的作用及措施,旨在进一步提高食品安全水平。
既是孤立语也没有活用,并且在文中主要修饰用言的词,在日语的语法论当中称为副词。副词根据修饰用言的性质,下分为三个种类。其中之一则是程度副词。程度副词既有表示程度高
研究目的:通过调查糖尿病患者出院后对社区延续护理的需求现状并分析相关影响因素,指出调查所呈现的问题,并提出相应的建议和改进措施,为临床护士改进工作、为社区护理人员提
本文从心理学的观点出发,根据人的“心理——行为”模式,通过火灾事故中环境对人的影响,对火灾中个体和群集的心理行为进行交互分析,总结了个体和群集在火灾中的异常心理行为
随着安全实践的发展,安全研究需要新探索,本文尝试借用"共生"的理论框架,从共生环境、共生单元和共生模式三个层次来阐释国际安全领域的共生系统。安全环境的变化是共生关系
<正>初中历史与社会学科核心素养是学生通过历史与社会学习能够体现出的带有本学科特性的必备人文品质和关键综合能力,培养学生的空间感知、历史意识、综合思维、社会实践等
HSE“两书一表”(即:《HSE作业指导书》、《HSE作业计划书》和《HSE现场检查表》)是中国石油天然气集团公司在基层组织的HSE管理有效运行模式,得到了很好的推广和普及。但在
<正> 痰瘀胃痛.是痰浊瘀血相结滞留胃腑而致的胃脘痛证.其病情复杂,缠绵难愈。笔者治疗数例,疗效尚好,兹举二例如下。痰热血瘀胃痛芦××,男,31岁,1986年10月8日初诊.胃痛5年