基于MapReduce计算模型的大规模文本分类方法的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:lz3163
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本是存储和交换信息的最自然的方式,但是,随着信息时代的高速发展,文本的数量呈指数级增长,因此,如何迅速的从海量文本中获取信息就成为了一个具有挑战性的问题。  文本分类技术是一种重要的文本分析技术,但是,文本通常处于高维度空间,对大规模文本进行分类需要耗费大量的计算资源和计算时间。云计算是分布式计算技术的一种,云计算能够将大规模的数据和计算分布到大量PC集群中进行并行处理,从而极大地缩短处理时间,MapReduce是由Google提出的基于云计算平台的用于处理大规模数据的框架模型,因此,基于MapReduce计算模型进行大规模文本分类,具有非常重要的研究意义和应用前景。  本文主要研究基于MapReduce计算模型的大规模文本分类方法,具体工作有以下几点:  1、本文研究了目前主要的文本分类方法及对这些方法的一些并行化实现,提出了基于MapReduce计算模型的大规模文本分类方法,该方法能够完成文本从预处理到分类的整个过程。  2、文本分类预处理包括一系列步骤,本文对这系列过程进行调研后,分析了其中的特征提取和权重计算两个步骤的各种方法和其详细工作流程,设计并实现了基于MapReduce计算模型的卡方检验特征提取法和TF-IDF权重计算法。  3、文本分类有很多算法,本文进行调研之后选择了K近邻算法和SVM算法作为研究对象,本文详细描述了这两种算法流程,设计并实现了基于MapReduce计算模型的K近邻分类算法和基于置信区间的SVM分类算法。  4、针对本文涉及的基于MapReduce计算模型的并行分类方法,本文最后进行了实验验证,比较了程序在MapReduce集群上并行化运行和在单机上串行化运行时的性能以及并行方法在不同节点的集群上运行时的加速比,最后本文对实验结果进行了分析和总结。  
其他文献
任务群计算(Many-Task Computing,MTC)是广泛应用于科学计算领域中的一种重要的计算模式,用于对松耦合大规模的科学计算任务进行求解。该计算模式下,一个复杂的问题可以被表达为
随着数字音乐的快速发展,用户需要更丰富的音乐库管理手段和更高质量的音乐服务。情感作为音乐的一个重要表现部分,是音乐检索和音乐推荐的重要媒介,因此歌曲情感识别成为音乐检
计算机应用技术是一门研究在不同情况下,使计算机高效地为不同的需求提供可靠运算服务的学科。机器人作为一个软硬件高度集成的智能化系统,为计算机技术提供了广阔的应用平台。
近年来,随着互联网的飞速发展,Web应用越来越丰富,网上购物、社交网站等Web应用在现实生活中使用的更加广泛。但另一方面,Web安全问题也不断出现,越来越多的网络攻击发生在我
人脸识别是生物特征识别领域的一大研究热点。人脸识别技术具有自然性与不易被觉察等优点,因而受到人们的普遍欢迎,在国家安全、军事、公共安全等领域都有着广泛的应用前景。随
需求工程是软件开发中的一个重要阶段。作为需求工程的开端,需求获取所输出制品的质量将直接影响需求工程甚至整个软件开发过程的实施质量。现有的需求工程方法和实践中,有两个
随着微电子技术、无线通信及网络技术的进步,无线传感器网络技术与应用得到快速发展,极大地影响和改变人们的生活方式和产业结构,其广泛的应用前景受到学术界和工业界的高度关注
作为一种结构化数据检索的重要工具,Distributed Hash Table(DHT)受到大规模分布式系统的广泛应用,比如分布式存储、即时通讯。近几年,随着分布式系统规模的日益增大和激烈的行
近年来,云计算作为一种新型的计算范型,发展越来越迅速,规模也越来越大。然而,人们对于云计算安全性方面的担忧也越来越成为阻碍云计算发展的主要障碍之一。云环境高度复杂和多变
隐写术是信息隐藏领域用来秘密传递消息的一种技术,嵌入效率更高的隐写算法具有更好的安全性,而矩阵嵌入是一种用来提高隐写算法嵌入效率的有效方法。在进行矩阵嵌入前,通信双方