基于Hadoop的Web文本挖掘的关键技术研究

来源 :浙江理工大学 | 被引量 : 0次 | 上传用户:wangchongzhan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展,数据的产生和存储达到了空前繁荣的阶段,与此同时,如何从海量的数据中提取潜在的有用信息,给传统的数据挖掘技术带来了严峻的考验,基于云计算的数据挖掘的方法也应运而生。Hadoop是云计算技术的一个开源平台,其核心技术主要是Hadoop分布式文件系统(HDFS)和MapReduce编程模型,其中,HDFS存储文件,MapReduce编程模型实现并行计算。由于利用Hadoop框架可以方便、快速地实现计算机集群,能够处理大型数据集,因此,将传统的数据挖掘方法部署到Hadoop平台具有实际的研究意义,实现这一技术的关键就是要对传统数据挖掘技术的并行化。目前为止,基于Hadoop的数据挖掘技术在某些方面已经取得了一定的研究成果,但是该领域的研究还有待进一步推广。本文以云计算技术及数据挖掘技术为理论基础,研究了文本预处理算法并对其进行改进,支持向量机算法并对其改进以及并行支持向量机算法的实现。论文主要研究内容及成果如下:1、Hadoop分布式平台及Web挖掘理论。本文对Hadoop两大核心技术即HDFS和MapReduce编程框架进行了深入的研究,并详细介绍了Web挖掘的相关理论及挖掘算法。2、Web文本预处理。本文从文本预处理的流程出发,研究了预处理过程的具体步骤及其相关算法。由于在传统的特征项表示模型中,没有充分考虑权值较小特征项的影响,因此,本文提出了改进的特征项表示模型。在该模型中,首先求得所有特征向量的平均值,再对其进行标准化,使得所有的特征项在同一起点上对文本分类起作用。最后通过实验验证了改进特征项表示模型的优越性。3、改进的支持向量机算法及其并行实现。在该部分,首先详细研究了支持向量机算法,并针对现有算法存在的问题,提出了改进的支持向量机算法,即通过改变核函数,从而提高算法的学习泛化能力,使得分类器分类效果更好,同时,考虑到分类器的分类时间问题,本文利用相应的并行策略实现支持向量机的并行算法,并将其部署到Hadoop分布式平台,最后通过实验验证了改进支持向量机算法的优越性和并行支持向量机算法的有效性。4、搭建了Hadoop集群环境,使用java语言实现了支持向量机分类器的构建,并通过分类器评价指标对分类器进行评价。
其他文献
脉搏波是心脏射血冲击血管,经血管壁反射而形成的一种传播波。脉搏波信号能反映出人体的一些生理与病理信息,所以脉搏信号一直是人们关注和研究的重要医学信号之一。近年来随着
在目前国内250多万家制造业企业中,中小企业占90%以上,这些中小企业信息化基础薄弱,在信息化基础构建方面资金、技术、人才均缺乏。而在物资采购方面,这些中小企业存在着相互
随着社会经济的迅速发展以及互联网的普及应用,无线网络以其布线灵活、便于移动、部署容易和节约成本的优点,越来越受到各国重视并得到广泛应用。相比传统的以太网络,新兴的无线
国际形势日趋复杂,我国经济发展步入新常态,社会改革全面深化,维护国家安全稳定的任务更加繁重。传统的维稳工作中信息收集汇总难、化解处置过程动态掌握难、跟踪调度难、合
由于网络技术日趋成熟,黑客们逐步将注意力从以往对网络服务器的攻击转移到对Web应用的攻击。根据2011年Gartner的最新调查,75%的安全攻击发生在Web应用上。利用恶意的脚本代
以网上购书系统作为理论与实践的结合,实现了论文提出的Web应用开发框架,重点从表示层和业务逻辑层分析了系统的实现过程,并对系统的部署进行了描述。传统的Web应用系统普遍
加密云数据的安全检索问题是目前的热门研究话题。现如今以关键字为文档体征的加密云数据检索方案已经有很多了,这些方案能够支持不同的检索功能。但目前能够支持多关键字密
噪声是阻挡语音识别走向实用化的主要因素。为了使语音识别产品能够更好地走向实用,提高在噪声环境下的语音识别率成为当前迫切需要解决的问题。本文在研究国内外相关资料的基
随着信息化、数字化的不断发展,产生数据的速率呈指数增长。大量数据需要存储和访问,给存储系统带来了极大的负担。为了存储急速增长的数据,近年来存储技术在快速发展,存储设备的
运动估计及相应的运动补偿是视频编码标准的核心部分,编码端只需向解码端传递运动信息和残差信息,而不用传递像素原始值,极大地提高了压缩效率。然而,传递给解码端的运动信息需要