基于MapReduce的大数据文本分类方法研究

被引量 : 0次 | 上传用户:10198223
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
移动宽带网络的高速发展,给人们的生活带来了便利,每时每刻都会有大量的数据上传至网络,据统计至2020年数据量将增长近10倍,随之而来的是网络上文本数量高速增长。在大数据背景下,如何发现包罗万象的文本数据中最具价值部分显得至关重要。为此,作为信息检索、文本挖掘的根基,文本分类一直受到广泛关注。一方面,对于中文文本的分类需首先进行中文分词操作,然而中文常用词汇多达几十万个,大规模的文本集由全部分词构成的特征词库会有很大维度。因此,特征选择与提取是非常必要的。另一方面,传统的集中式系统框架不能满足大数据分析处理的要求。Google提出的并行编程模型MapReduce,为处理海量文本数据的分类创造了条件。在设计思想借鉴Google公司MapReduce的基础上,开源的Hadoop分布式系统实现了并行编程模型的框架MapReduce。本文选择基于Java设计开发的Hadoop开源MapReduce并行计算框架和系统,主要做了如下工作:(1)研究了文本分类的流程以及与之相关的一些技术,对特征选择、文本分类算法等重要内容做了比较详细的介绍。对于正逐步成为大数据处理有力工具的Hadoop平台,本文主要对其中的MapReduce并行化编程模型和分布式文件系统HDFS做了较为深入的研究。(2)考虑到中文文本分类的预处理需要进行分词与去除停用词操作,在比较了两种并行化分词的方案之后,选择更加高效的方案设计了一套基于MapReduce且集成了去除停用词的并行化分词框架。大规模文本集输入时,预处理之后往往会产生庞大的特征空间,此时需要经过特征选择,提取出最具有区分能力的若干特征项,降低特征空间的维度。在分析了传统的互信息特征选择算法的不足,以及研究了他人对于该算法改进的基础上,提出了一种基于类间差异的特征选择方法CDMT,同时为其并行化实现设计了一套基于MapReduce的CDMT特征选择框架。(3)将MapReduce框架应用到文本分类领域,在分析了朴素贝叶斯分类算法的基础上,设计了一套基于MapReduce的并行化朴素贝叶斯分类框架,并搭建了一个Hadoop实验环境,结合特征选择方法进行测试,实验结果表明采用CDMT提取特征项后提高了分类性能。
其他文献
研究六经辨证主要包括六经生理、六经病理、六经病证与六经辨证。六经生理是探索六经辨证的物质基础;六经病理是研究六经生理异常变化;六经病证是研究六经所系脏腑及经脉气血
为认清我国安全生产形势现状与发展趋势,作者应用比较研究和预测分析方法,回顾总结了我国生产安全事故历史演变特点,对事故死亡人数、十万死亡率和重大事故发生频率等安全生
随着经济的快速增长,我国已成为世界能源消耗大国。高能耗和较低的能源使用效率,带来了严重的环境污染,使我国节能减排面临很大的压力。为了有效缓解能源资源与环境因素对中
近年来,随着现代移动通信和无线宽带接入技术的不断发展和创新,无线宽带网络应用日益成熟和普及。然而,在日常生活中,仍然存在一些难以覆盖的盲区和弱区,例如,在规模较大、结
通过乌贼骨、茜草、黑荆芥在月经量多、经期延长、带下量多三案中的应用,阐述了三药在妇科临床中的应用方法。
《素问·奇病论》认为消渴的成因为脾脏过劳而发或脾胃积满蕴热而发,应"节饮食,惜用脾胃""畅情志,平和心志"以预防。病机为脏腑虚损为本,津液精微不归正化为标,治疗时应重视
冻土是一类非常特殊的岩土工程材料,它与常规融土的典型特点不同的是有冰的大量存在。冻土由土颗粒、土中的水、气体和冰组成的,其性质不但与含冰量有关,更与温度有紧密的联
普光气田属于高含硫气田,一旦发生事故对周边危害极大,该域地形复杂,山高路险,道路狭窄,人口密集,不利于疏散,普光应急管理模式面临挑战。为了解决这一难题,普光气田采用企地
随着低温绝热气瓶应用越来越广泛,气瓶检验机构已经形成了市场化趋势,而如今多数气瓶检验站检验设备落后、检验效率低下,现存的气瓶检验机构无法适应市场化需求,无法满足社会