基于MapReduce的文本挖掘研究

来源 :电子科技大学 | 被引量 : 4次 | 上传用户:mkl119
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于互联网与通信技术的迅猛发展,数据逐渐呈现出海量、异构、多样等特性。在互联网知识呈现的形式中,80%的信息是以文本形式存在,而人们在面对这些海量数据时,尝尝陷入“数据丰富,知识匮乏”的尴尬境地。文本挖掘的出现,使得信息杂乱的问题得到了有效改善。文本分类是文本挖掘与信息检索的重要基础与研究热点,近年来随着研究的广泛,文本分类在信息检索、舆情分析、信息过滤和新闻分类等多个领域取得成功了应用。然而,随着数据规模呈指数级的增长,传统的串行算法难以满足海量文本数据分析处理所要求的计算空间与能力,这也导致文本分类面临许多新的问题和挑战。近年逐步兴起的MapReduce计算模型能够以简单易于理解的框架和强大的并行计算能力解决了海量数据处理问题,并且在学术界与工业界也得到了广泛认可与应用。本文的研究内容主要从文本分类与大数据并行处理两个方面着手,介绍了文本分类的相关理论知识和MapReduce编程模型的相关技术,在并行运算模型的开源实现Hadoop平台上,提出并实现了一种简单、有效的文本分类方法——基于MapReduce的平均朴素贝叶斯文本分类算法。该方法在多项分布假设下,利用了文本特征的tfidf权值,较大限度地保存了文本的语义信息。同时实验了在不同大小,不同语言的语料库上的表现情况,并与普通贝叶斯分类在训练时间、分类性能等方面进行了对比。实验结果表明,由于减小了文本冗余特征信息的影响与并行计算良好的扩展性,该方法适用于处理大数据集,尤其是在传统串行算法无法处理的情况下;针对不同语言的数据集,在实验数据大小相近的情况下,由于文本预处理等方式的差异,英文语料库的分类效果优于中文语料库。最后在分类效果实验中,该方法在分类性能评价上高于一般朴素贝叶斯方法,且具有较好的加速比。
其他文献
为了解决大三、大四学生的厌学问题,改善大三、大四学生的学习状况,也为对现在的大学教育方法提供指导,我们采用假设检验和相关分析的统计方法来探讨大学生学习动机与自我效
本刊讯记者谢春阳报道6月7日以来,湖南省发生了今年人汛以来的最强降雨,个别站点日降雨量超过200毫米,造成局部灾害.其中灾情严重的绥宁县出现人员伤亡.湖南省安监局6月8日发
本文通过对凯恩斯学派的货币政策传导机制理论、后凯恩斯学派代表人物托宾的资产组合调整理论、莫迪利亚尼的财富效应理论、信用供给可能性理论以及货币学派代表人物弗里德曼
1 临床资料rn1.1一般资料:25例患者中,男16例,女9例;年龄最小6岁,最大34岁;均为单发,均生长在头颈部,皮损直径4~12cm2不等。rn1.2 治疗方法:常规皮肤消毒,用1%利多卡因局麻。采用CO2激光
人需要保养方能健康长寿,设备需要维修方能经久耐用.变频器控制的电气设备故障的维修是机床设备安全生产、延长使用寿命的重要保障.一般来讲,电气设备故障论其原因,大致有两
1一般情况某车辆段主要承担中南地区货车检修任务,年检修车辆12 000辆,由于在检修过程中存在电焊作业点多、分散、净化设施简陋,甚至有的电焊作业点未建净化设施。近年来,电
随着科学技术的发展,石油化工产品已经逐渐渗入到人们的日常生活当中.但是由于石油化工产品本身具有易燃易爆并极其容易引起火灾等特性使得人们不得不在其使用过程中重视火灾
最近几十年来,世界上掀起了不可逆转的区域经济一体化浪潮。欧盟和北美自由贸易区的快速发展,已经成为世界经济中两支重要力量,影响和主导着世界经济格局。在亚洲地区,最近几年区
金融业是国家经济安全的根本,金融稳定实际上是稳定整个经济的关键因素,同时也是稳定整个社会的关键,而银行系统的稳定是金融稳定的核心.所以,国有商业银行上市只能成功,不能
本刊讯记者谢春阳报道6月10日,湖南省安监局危险化学品管理处在湖南安全生产信息网上发布涉危信访举报核查结果公告.