网络恶意爬虫的发展现状及对策研究

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户：ustczl

【摘要】

：

【作者】

：

叶蕾陈佳欣郑文欣

【出处】

：

电脑知识与技术

【发表日期】

：

2021年30期

【关键词】

：

恶意爬虫爬虫技术数据安全

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：网络爬虫技术作为网络核心技术之一，在社会诸多领域应用广泛，但同时也带来了极大的数据安全威胁。该文阐述了网络爬虫的定义，提出了爬虫行业法律法规缺失、技术防范效果不佳、监管力度不够导致恶意爬虫泛滥的问题，分析了爬虫行业现状的严峻形势，最后提出恶意爬虫的防范对策和监管思考。
　　关键词：恶意爬虫;爬虫技术;数据安全
　　中图分类号：TP393 文献标识码：A
　　文章编号：1009-3044（2021）30-0072-02
　　开放科学（资源服务）标识码（OSID）：
　　1问题的提出
　　网络爬虫是一种按照设定的规则，通过模拟人工点击来自动抓取万维网数据和信息、自动下载网页功能，从而自动、高效地读取或采集互联网数据的程序或者脚本。当今网络爬虫种类庞杂，被有效应用到社会多个行业领域，例如在交通信息获取中，可以应用该技术掌握事故车辆、天气、道路状况数据资料[1]。善意爬虫充分凸显了网络爬虫技术的实际应用价值，促进了数据采集技术的发展，方便用户从海量的数据中挖掘价值。
　　但技术是一把“双刃剑”，现实中网络爬虫行业的规范缺失和监管不力，导致爬虫技术在方便数据收集的同时，也可用于盗取企业商品信息、价格、评论等核心内容，抓取与贩卖个人隐私数据;侵占企业带宽资源，引起服务器死机，影响正常运营、用户访问体验以及数据的统计。因而，加强对恶意爬虫的规范和监管迫在眉睫。
　　2现状分析
　　随着科技的发展，爬虫行为充满网络生活。由于网络恶意爬虫的大肆蔓延以及其产生的巨大危害，国内网络爬虫行业现状也在不断变化。
　　2.1网络恶意爬虫的攻防现状
　　网络恶意爬虫以非法获取数据为目的，违反Robots协议，未经允许利用获取的数据换取利益。恶意爬虫大多通过以下途径爬取：（1）客户网页端，爬取者通过爬虫程序直接通过网页搜索用户身份信息，包括个人真实姓名、出生日期、住址等，获取后很有可能实施诈骗行为，公民个人财产受到损害。（2）网站特殊通道，这是编程人员为系统测试设置的漏洞，爬取者可以通过它直接访问网站的敏感数据，这些敏感数据很可能会成为网络攻击的源头，进而导致网络安全问题。（3）管理接口，它提供了网站管理者和使用者之间联系的通道，极大地方便了它们间的交流，优化了网站管理。
　　除此之外，网络恶意爬虫还在不断地升级变换，但目前针对恶意爬虫的检测和防御技术尚未成熟。
　　现有的网络爬虫检测技术分为四大类：基于访问日志分析的恶意实体检测;基于访问模式的检测;基于访问行为的检测;基于访问序列的检测[2]。过去的防御技术通常是利用验证码验证登录者的合法性，随着图像识别技术的发展，行为验证方法开始出现。它可以有效分析用户的“行为特征”并自主学习，极大地抵御了网络爬虫的危害。但是以上的技术解决恶意爬虫行为具有很大的限制性和错误率，且没有从根源上减少恶意爬虫行为。
　　2.2网络恶意爬虫的法律分析
　　过去，人们为了防范网络恶意爬虫行为，提出了Robots协议。Robots协议用来告诉浏览器，此客户端服务器中的内容是否可被任意爬取，属于为了防止其他人访问自己网站内容而设置的技术性措施，是行业中的商业规则，但它本身并无强制性，无法真正防范恶意爬虫。
　　现在，随着数据的社会经济价值被充分挖掘，由恶意爬虫导致的各类案件频繁出现。只借助Robots协议遏制恶意爬虫的方法不再适用，但相关规定并不完善。法律对网络恶意爬虫行为定义的关键是它是否侵犯了人们的敏感数据，而对于公共数据进行爬取，不会受到法律限制[3]。近年，国家对数据和信息的保护逐渐加强，规范网络恶意爬虫行为的法律法规数量不断增加。我国法律对于网络恶意爬虫的规定，主要体现在爬取敏感數据的规制，比如《反不正当竞争法》《著作权法》和《网络安全法》等法律规定了爬取的范围，即爬虫行为是否构成了不正当竞争[4]。
　　3防范网络恶意爬虫的对策
　　我国针对恶意爬虫的界定标准尚未明确，相关部门监管能力有限，导致用户隐私数据、政府重要数据和企业核心数据等被肆意侵犯。为了遏制数据在互联网上“裸奔”的现象，必须制定更加严谨的防范对策，建立更加全面的防范法律，加强对网络恶意爬虫各方面的监管力度。
　　3.1制定恶意爬虫界定标准
　　现今的网络恶意爬虫行为可以分为两类：网络爬虫恶意爬取、网络爬虫恶意攻击。
　　在定义界定标准前，先对网络爬虫的合法抓取行为简要阐述。Robots协议是以单方面宣示的方式，明确规定了网络爬虫的抓取范围，可以作为法律判断的参考依据。因此，在遵循"君子协议"行为准则的前提下，只抓取规定范围内的数据，即为合法的网络爬虫行为。
　　1）网络爬虫恶意爬取行为界定标准
　　以下四种情况属于常见的网络爬虫恶意抓取行为的界定标准：（1）对于享有著作权且具有独立创造性质的数据，若在抓取后未经过授权私自进行公开传播，属于侵犯《著作权法》中的信息网络传播权的行为。（2）在此基础上，若该数据属于某平台的资源，被公开传播、谋取利益，导致互联网市场的竞争平衡或优势被破坏、平台利益被侵害，属于违背《反不正当竞争法》的行为。（3）另一方面，若该数据属于商业秘密，即其具有非公开性、非排他性、利益相关、期限保护的特点，因此，若未保证使用的保密性和秘密性，而是公开披露和利用，则属于对商业秘密的侵犯。（4）此外，公民个人身份信息，例如姓名、身份证号、指纹等，作为识别个人身份的关键要素，《网络安全法》《民法总则》等法律中都涉及对其的保护，形成系统性的相关规定。因此，在未经用户授权并且本人不愿意被他人知晓的情况下，抓取了用户的个人隐私信息甚至进行第三方交易，则属于严重侵犯公民的个人隐私权。
　　2）网络爬虫恶意攻击行为界定标准　　网络爬虫的恶意攻击行为通过占用网络宽带资源，造成網络服务器无法及时、高效地处理用户的访问需求，严重的还会导致服务器死机[5]。
　　信息时代下的计算机系统中，数据库是不可或缺的一员。但数据库存在常见安全漏洞，例如：部署问题、错误配置、SQL注入、缓冲区溢出和权限滥用等，所以在网络中的恶意攻击者瞄准这些漏洞，控制代理服务器投掷大量的数据包给目标服务器，导致服务器资源被严重占用，甚至服务器崩溃。
　　若被侵入的计算机信息系统属于国家事务、国防建设、尖端科技技术领域的系统，按照《刑法》的有关规定，无论是否窃取数据，是否造成了破坏，均会构成非法侵入计算机信息系统罪[3]。而若被侵入的是一般计算机信息系统，只有在满足"情节严重"的前提下，才会构成犯罪。
　　3.2加强恶意爬虫技术防范
　　恶意爬虫防御技术一直以来都是极受关注的主题。通过已有的爬虫访问频率、规律以及收集的日志作为基础实现的常见防御方式有：（1）通过Break Out异常检测算法，对异常流量的IP地址进行封禁，缓解网站服务的压力。（2）采取验证码对网站流量进行限制、利用Web页面元素的随机性进行防御的主动性机制，例如图形和行为式验证码。
　　而针对个别变种的爬虫而言，丁文豪提出了一种Web页面动态化算法，即针对网页具有静态性、单一性和确定性而造成的恶意爬虫行为及其变种爬虫的攻击的自动化实施，将会通过动态加密算法和动态陷阱技术将Web页面施行自适应的随机变化算法，来以此成功避免[2]。由于技术高速发展，对于恶意爬虫的技术防范将会得到更好的完善，网络的安全程度也会大大得到改善。
　　3.3健全恶意爬虫法律法规
　　由上文法律现状分析可知，目前针对恶意爬虫的法律并不规范，例如在《数据安全管理办法（征求意见稿）》中，尽管对网络爬虫的抓取行为做出了相关的规定，但实际上并未明确和细化责任的相关内容。
　　法律法规首先要从多方面详细地对恶意爬虫行为进行界定。根据被爬数据的性质，即是否可以自由抓取这一重要标准，我们可对《反不正当竞争法》等已经做出一些界定的法律进一步完善。同时，抓取数据的大小、爬虫目的等也是判断恶意爬虫的重要依据，例如网络爬虫是否对目标网站的功能和正常运营造成干扰。
　　其次，已有的法律体系还需要增强对网络恶意爬虫行为的约束力。对于多样的恶意爬虫，可以根据其影响程度的大小划分出不同的等级，规定不同程度的判决结果。
　　3.4制定科学的监管手段
　　恶意爬虫的技术防范和法律体制完善的背后也需要监管部门加大管控力度，采取科学的监管手段。面对互联网上数以亿计的爬虫，相关部门应该设计一个能够自动监测网站上爬虫数量和速度，并能够及时控制爬虫的启停，实时防护的监控系统，以避免网站面临过大的爬虫压力，造成资源损耗等问题。
　　研究近年来网络恶意爬虫事件，可以发现程序员群体缺乏职业道德、网络用户缺乏自我保护意识是使爬虫程序触犯法律边界，用户隐私数据被“窃取”和“掠夺”的主要原因，所以监管部门要担任起提高程序员和用户对于网络恶意爬虫的认识及其相关法律意识的责任，定期对程序员进行职业道德教育。这对于爬虫领域的发展来说会减少很多阻碍和隐患，而且监管也会更加有力可施。
　　监管部门也应当强制要求各企业在用户授权同意的情况下收集、存储、处理、利用和传递用户的个人信息，加强对用户的隐私数据风险提示，不得以默认授权、功能捆绑等方式误导用户。企业内部也应当健全企业用户个人信息保护制度，采取反爬虫技术保护企业信息安全，定时开展信息保护的自查工作，及时整改漏洞之处。
　　4结语
　　网络爬虫虽然助推了数据查询、收集和分析技术，促进了网络数据的共享，但也不能触碰法律的底线，否则原本中立的技术就会变为非法。网络恶意爬虫势头正足，监管部门应主动建议国家出台相关法律政策，积极倡导行业自律，规制网络爬虫行为，加强对爬虫活动的监管力度，解决网络爬虫领域监管空白的现实性和迫切性问题。
　　参考文献：
　　[1] 李文华.解析网络爬虫技术原理[J].福建电脑，2021，37（1）：95-96.
　　[2] 丁文豪.恶意爬虫主动防御技术研究与实现[D].北京：北京邮电大学，2019.
　　[3] 李美香，王德亮.网络爬虫恶意爬取行为的法律分析[J].农村经济与科技，2020，31（7）：391-392.
　　[4] 邱波.滥用爬虫技术的刑事风险与刑法应对[J].信息安全研究，2020，6（9）：830-838.
　　[5] 杨志琼.数据时代网络爬虫的刑法规制[J].比较法研究，2020（4）：185-200.
　　【通联编辑：代影】

其他文献

基于大数据平台的数据治理系统建设

摘要：数据治理系统作为大数据平台的核心基础支撑系统，旨在为数据仓库、数据服务平台、大数据基础平台以及实时共享交换平台，提供统一、便捷、高质量和价值最大化的数据资源，是数据应用和实现数据跨部门联通的基本保障。该文提出基于大数据平台的数据治理系统建设方案，为降低后续数据治理的改造成本、实现各部门互联互通和达到数据资源价值最大化，提供有效基础支撑。　　关键词：数据治理系统;大数据平台;数据仓库;数据服务

期刊

数据治理系统大数据平台数据仓库数据服务平臺数据资源

基于流模型的三维点云生成方法

随着三维点云数据在计算机视觉任务的逐渐流行,合成或重建高分辨率、高保真点云的能力变得至关重要。虽然深度学习模型最近在点云识别和点云分类任务中取得了成功,但点云生成任务还困难重重。本文提出了一种基于流模型的点云生成模型,使用深度学习技术训练好该模型之后,只需要从简单的高斯分布随机采样数据,然后通过我们的模型就可以产生全新的高质量的点云形状。基于我们模型生成的点云的质量比大多数现存的模型都要好,可以为

期刊

点云生成模型流模型深度学习先验点云

移动终端海量数据存储技术研究

摘要：该文将研究移动终端大数据的文件存储技术，以电子邮件和短彩信消息文件的存储为实例，提出了一种在移动终端大数据环境下的消息文件存储和操作的算法，实现精确控制读写数据正确位置，避免了重写所有数据，极大减少IO操作负担，提升移动终端大数据读写操作性能。　　关键词：移动终端;数据存储　　中图分类号：TP3 文献标识码：A　　文章编号：1009-3044（2021）30-0037-03　　开放科学

期刊

移动终端数据存储

计算机网络信息系统安全问题及解决策略

摘要：随着计算机信息技术飞速发展和应用，各行业领域逐渐向现代化、信息化方向发展，人们工作生活更加便捷。然而在网络技术发展大背景下，计算机网络信息系统安全问题也随之出现，如信息资源共享带来的安全问题、软件及操作系统的安全问题、黑客入侵病毒泛滥以及环境危害引发的安全问题等安全问题。对此，相关技术人员要加强物理安全防护，及时备份和恢复数据库内容，同时要不断提高系统反病毒能力及软件操作系统安全性。该文分析

期刊

计算机网络信息系统网络信息安全

基于深度学习的图像超分辨率研究

图像超分辨率是由低分辨率图像重建生成高分辨率图像的过程,是计算机视觉领域的一个研究热点。近年来,随着图像超分辨率技术理论的不断创新,从传统的插值法、重构法发展到主流的深度学习算法。文中从图像超分辨率的定义出发,梳理了图像超分辨率各个时期的代表性算法,详细介绍了基于卷积神经网络、残差网络与生成对抗网络三个主流的超分辨率模型,并讨论了各个模型的网络结构、学习策略以及损失函数等问题。最后,对图像超分辨率

期刊

图像超分辨率深度学习神经网络计算机视觉

校园网IP地址规划与设计探讨

摘要：为了避免因IP地址规划导致一系列网络问题，结合网络工程项目实际经验和教学经验，针对校园网的网络互连系统提出网络IP地址规划与设计的基本原则、规划方法，并通过一个具体的实例说明IP地址规划的过程。希望对网络初学者和一些缺乏IP地址规划经验的网络工程师提供有价值的参考。　　关键词：校园网;局域网;IP地址规划　　中图分类号：TP393 文献标识码：A　　文章编号：1009-3044（202

期刊

校园网局域网IP地址规划

基于逻辑回归方法的网络社交平台对大学生主流意识形态的关系研究

摘要：为了研究网络社交平台对大学生主流意识形态的关系影响，该课题以全国大学生为主要研究对象，以反映当代大学生在网络社交平台使用行为情况的五个维度：社交互动、信息获取、自我表达、休闲娱乐、网络影响程度为自变量，反映大学生主流意识形态的三个指标知晓、认同、践行为因变量，建立相应的二元Logistic回归模型，进行实证调查分析。基于实证分析结果表明，网络社交平台的五个维度对大学生主流意识形态三个维度均具

期刊

大学生主流意识形态网络社交平台二元logistic实证分析

机房网络安全隐患及网络安全技术策略分析

摘要：科学技术水平提高推动了通信网络的发展，但在其实际应用环节，仍然存在许多安全隐患。本文就机房网络安全隐患进行了简要分析，并以此为基础进行机房网络安全技术策略研究，并提出机房网络安全管理防护举措。为保障机房网络安全，管理人员应设立机房网络安全权限，应用防火墙加密技术，提高机房网络安全水平，保障机房网络正常运行。　　关键词：机房网络;安全隐患;网络安全技术　　中图分类号：TP393 文献标识码

期刊

机房网络安全隐患网络安全技术

网络时代新型信息分类法探究

摘要：传统信息分类法是自上而下金字塔式的系统的、详细的、全面的分类法，而随着信息高度发展化和透明化的时代的到来，互联网上出现了新型信息分类法--自编分类法和分众分类法，二者采用了独特的信息分类法，方便了用户信息的检索。文章主要概述传统信息分类法和新型信息分类法，并将二者进行比较，分析新型信息分类法的优劣。　　关键词：传统信息分类法;自编分类法;分众分类法　　中图分类号：TP311 文献标识码：

期刊

传统信息分类法自编分类法分众分类法

基于ASP.NET 资产管理系统的设计与实现

摘要：该文阐述了固定资产管理在企业中的应用背景，提出了利用B/S结构，采用ASP.NET的Web开发技术、SQL Server数据库进行系统开发的方案。在完成系统总体设计的基础上，对系统的主要功能模块进行了详细的设计和实现，并进行系统的部署和测试。　　关键词：固定资产管理; B/S结构; ASP.NET; SQL Server　　中图分类号：TP311 文献标识码：A　　文章编号：1009-

期刊

固定资产管理BS结构ASPNETSQLServer

网络恶意爬虫的发展现状及对策研究

与本文相关的学术论文