基于HADOOP的数据挖掘算法并行化研究与实现

被引量 : 9次 | 上传用户:tw2008hr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展和云计算技术的流行,提供网络服务的互联网公司每天生成和需要处理的数据呈爆炸式增长,海量数据已经逐渐将我们包围。数据的不断增长给人们带来了巨大价值,同时也给人们带来了巨大的挑战。如何分析和挖掘这些数据背后隐藏的有价值的信息,已经成为很多大型企业所关注的焦点。大规模文档信息资源的自动化处理是海量数据处理中较受关注的一个领域,企业通过对文本数据进行分类,不仅可以对数字资源进行有效的整理,而且保证数字资源被全面检索和充分利用,满足用户对信息咨询服务的需求。但同时互联网企业产生的文本数据又具有海量,复杂等特点,面对现在飞速增长的文本数据,传统采用单机来处理的方式已经逐渐满足不了人们的需求,如何高效率的对海量文本进行分类整理并且挖掘出有价值的信息,这是本文的一个关注的问题。Hadoop是目前最流行的用于处理海量数据的开源分布式框架。Hadoop主要的组件包括HDFS和MapReduce。HDFS是Hadoop集群提供的分布式文件系统,而MapReduce是一种分布式框架,通过这两者的结合,可以对海量的文本数据进行有效的处理。本文研究了Hadoop进行分布式处理的步骤和原理,在其基础上实现了文本分类流程中各个部分的并行化,并且通过并行统计计算朴素贝叶斯算法的条件概率和先验概率的方式以及对样本进行分组训练的方式分别实现了基于朴素贝叶斯和支持向量机两种分类算法的分布式文本分类系统,通过与单机系统处理结果的对比,论证了Hadoop系统在进行文本分类时的效率要高于单机,并且取得良好的分类效果。
其他文献
延安时期的电影、摄影、幻灯等工作为中国共产党的事业和新中国的成立做出了不可磨灭的贡献,具体表现为:在极端艰苦条件下成立了我党的第一个专业电影机构,为新中国电影事业的
房车旅游是一种崭新的旅游形式,可以提供个性化、自助式的旅游服务。房车旅游包括房车、房车营地和旅游线路三大板块。其中,房车营地是房车旅游的重要物质载体,是三大板块中
21世纪的主要竞争不是企业与企业之间的竞争,而是企业自身的可持续发展和企业对供应链的管理的高度重视,供应链上价值信息的分享是我们生产计划管理的主要依据,为了更够对变化莫
文本自动分类,是处理和组织大量的文档数据的关键且核心的技术,也是自然语言处理中的一个非常重要应用领域。然而在当今大数据背景下,分文分类的新问题不断出现。信息呈爆炸
本文旨在建构一个以人教版语文教材为主的中学语文课堂音乐教学的内容框架,结合具体的音乐类型与课文实现音乐教辅的有效作用。本论文首先依据中外音乐与文学发展,确立了中学
篮球进攻战术种类繁多,千变万化,可是“以快取胜”确是各种进攻战术之中的精髓。而快攻则是最能体现“以快取胜”这一精髓的重要指标。当前国内外各大联赛、奥运会以及世锦赛
目的分析精神科门诊就诊青少年的特征以及心理健康情况。方法选取2016年1月-2017年1月期间天津市安定医院精神科门诊进行就诊的青少年650例作为研究对象,开展回顾性研究,采用
为了查明石河子地区猪瘟免疫水平,试验猪场的猪瘟病毒的感染情况,为当前形势下猪瘟的防控提供科学依据。实验从如下几个方面着手进行了研究。1.石河子地区猪瘟免疫抗体水平的监
研究背景百日咳(Whooping cough)是一种疫苗可预防的急性呼吸道传染病,在我国属于乙类法定报告传染病,典型的临床表现是阵发性痉挛性咳嗽,病程较长,疾病负担大。2012年据WHO
我国是一个农业大国,实现乡村振兴背景下的新型职业农民培育,是促进我国农村可持续发展的重要战略措施。我国新型职业农民的培育方式是重视农村人力资源培养和重视基础建设。