大数据环境下分布式数据抓取策略的研究与应用

来源 :网络安全技术与应用 | 被引量 : 3次 | 上传用户:moyixin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术与移动通信技术的飞速发展,互联网已经进入了大数据时代,传统的数据抓取技术已经很难适应当前海量数据的应用需求,为了能够有效改善这一现状,本文提出了基于Hadoop的分布式网络爬虫改进策略,以满足大数据环境下用户对互联网信息的应用需求。
其他文献
【摘 要】研究基于小波变换的数字水印算法是为维护产权人合法权益的有效途径之一。本文从简述数字水印和小波变换的相关概念入手,探讨数字水印在设计过程中需要考虑的要点,分析数字水印嵌入的各种方式和检测技术,为基于小波变换的数字水印算法的改进提供参考资料。  【关键词】数字水印 小波变换 嵌入技术 检测技术  一、引言  存储和传输数据信息的便捷,导致许多未经过产权人许可的数据信息内容出现在市场上。因此本
本文通过介绍大数据分析在360安全大脑[1]对APT攻击分析方面的利用,展示了目前360利用大数据挖掘对已知APT攻击组织的追踪、挖掘能力。本文介绍的手段均已落实在当前的日常生产中。当前系统中追踪中的APT组织多达23个,日增量数据10T以上。文中提及的云查杀为目前360卫士、360杀毒的普通保护手段,海莲花为360首次发现的一个隐藏在我国周边长期对我国渗透、攻击的APT组织,Poseidon数据
期刊
期刊
随着互联网的普及和使用,越来越多的企业开始构建自己的信息化系统,建设自己的数据服务中心,因此为了保障企业数据中心的安全运行,需要建立一个系统的、完善的企业数据中心安全架构,以便能够全方位保护数据中心,避免数据被非法分子盗窃、篡改,具有重要的作用和意义。
信息技术水平的不断进步使得信息的获取方式也越来越丰富,但是在目前的信息领域中网络爬虫以及网页信息解析仍然是应用最为广泛的两种信息获取方式。而如果将这两种信息获取方式应用在微博方面,则很难保证数据信息获取的速率,这主要是因为微博本身具有庞大的用户群体,随时随地都有用户在进行信息更新,导致整体的信息更新量以及更新速率都非常快,加之用户之间的信息交流量也比较大,因此,常规的信息获取方式已经不再适用。目前
期刊
随着科技的进步,人们对数据的认识、理解和应用都发生了巨大改变。大数据环境下的各种信息安全问题层出不穷,信息安全形势不容乐观,本文对当前信息安全形势进行简略的分析,对大数据环境下的安全问题进行梳理并提出解决的策略。
期刊
在计算机、网络以及通信技术快速发展的今天,人工智能的优势逐渐显现出来,成为新时代的产物。目前,人工智能技术最为强大的优势就是数据处理能力,随着现代社会计算机数据处理的复杂化,计算机的处理能力逐渐显现出弊端,使用人工智能可以很好地解决这一问题,并且还可以根据问题提出相应对策,快速处理各种信息。本文将分析人工智能技术的原理,探讨大数据时代人工智能的应用和意义。