基于Hadoop的Web信息提取和垃圾信息过滤研究与实现

来源 :电子科技大学 | 被引量 : 18次 | 上传用户:kentxp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文从Web信息提取和垃圾信息过滤两个方面的应用来进行研究。Web信息提取,其目的就是从网页中分析提取出用户真正想要的和有价值的信息,排除其他不需要或者无用的信息。网页信息提取已经广泛的应用于搜索、推荐、舆情和数据挖掘等多个领域。随着互联网的发展,互联网的信息日益剧增,海量数据的处理成为了热点。Web垃圾信息过滤,主要是由于论坛、邮件、新闻等等,由于反动、不良信息等等充斥,而产生的应用。这些垃圾信息的泛滥在干扰人们的日常生活的同时,也给社会稳定带来了不利影响。现在垃圾信息过滤,普遍采用机器学习的算法,进行历史垃圾信息数据集的训练,然后对未进行分类的垃圾信息进行识别。对于训练算法,训练集的大小对于实验结果有着较大的影响。本文基于这两方面的应用,首先改进VIPS算法,应用于单个网页的信息提取,然后我们基于Hadoop平台,实现对Web的并行化信息提取,提高信息提取的速度,弥补单机信息提取时有限的系统资源,例如:I/O读写速度、网络速度、打开文件个数、存储空间等等。最后,我们基于Hadoop平台实现多元线性回归算法,对Web文本中的正常信息和垃圾信息的特征关键字属性进行筛选,进行海量数据的训练处理,建立模型,实现对垃圾信息的识别。本文通过实验验证,我们将这两方面的应用与Hadoop平台结合起来,极大的提高了其运算处理的时间性能,取得了理想的效果。
其他文献
目的评价低频电刺激联合膀胱功能训练治疗脊髓损伤(SCI)诱发的神经源性膀胱(NB)的效果。方法选取2017年5月~2019年2月我院骨科门诊就诊的SCI诱发NB患者90例,随机分为观察组与
随着人类社会迈进信息时代,互联网、云计算、大数据、VR等现代信息技术在教育领域得到广泛应用。如何应用现代信息技术提升教育教学质量,已成为许多公安教育工作者研究的新课
本课题主要以廉价且丰富的高岭土和废铁屑为原料制备新型无机高分子絮凝剂聚合氯化铝铁。将研制出高分子絮凝剂运用于环城河的蓝藻去除中,并与市售的几种絮凝剂的除藻、除浊效
裂纹是影响发动机等重大装备结构服役安全的重要因素,高效可靠的裂纹自动化图像识别技术可有效提升视检工作效率,克服目前检测手段效率低、可靠性差等问题。基于深度卷积神经网络(CNN)和单步目标识别的SSD模型,改进了面向裂纹识别的网络拓扑结构,发展了一种轻量级裂纹图像快速自动识别算法。由于深度神经网络具有可迁移学习的特点,考虑到火箭结构中所用的复合材料,推进剂药柱裂纹难以获取,基于火箭常用的金属材料的标
本文在前人已有研究的基础上,通过对一些具有代表性的地区的企业薪酬体系进行研究,结合已有的政策法律法规、经济理论和人力资源管理理论开展研究,在研究过程中,对在不同区域
海上热采井受注入的高温蒸汽及增效化学药剂的影响,产出液温度较高且含垢、泡沫、乳化,呈复杂流体状态,影响了同心管射流泵举升系统的平稳运行。为此,根据同心管射流泵的举升
桃树的设施栽培与温度、湿度、光照等外部环境具有密切的联系,桃树的发病规律也随着外部条件的转变而转变,在桃树发病时,其发病的特征可能不明显或不典型,都会对种植人员对于
工程教育的改革已经成为一个全球性的时代话题,工程涉及技术要素和非技术要素,非技术能力在现代社会的重要性已不言而喻。我国工程教育专业认证明确将工程与社会、环境和可持
<正>书法练习让孩子们感受美、探求美、领悟美、创造美。学生在学习书法的同时,还会涉及到历史、文学等相关知识,可以提升自身多方面的素养。史家小学重视在全校学生中普及艺
伴随着我国社会经济的快速发展,城市化进程不断加快,建筑市场也迎来了前所未有的历史发展机遇期,而要想保障建筑企业的长久、稳定发展,就必须要不断提高建筑工程的管理水平,