论文部分内容阅读
摘要:网络爬虫技术作为网络核心技术之一,在社会诸多领域应用广泛,但同时也带来了极大的数据安全威胁。该文阐述了网络爬虫的定义,提出了爬虫行业法律法规缺失、技术防范效果不佳、监管力度不够导致恶意爬虫泛滥的问题,分析了爬虫行业现状的严峻形势,最后提出恶意爬虫的防范对策和监管思考。
关键词:恶意爬虫;爬虫技术;数据安全
中图分类号:TP393 文献标识码:A
文章编号:1009-3044(2021)30-0072-02
开放科学(资源服务)标识码(OSID):
1问题的提出
网络爬虫是一种按照设定的规则,通过模拟人工点击来自动抓取万维网数据和信息、自动下载网页功能,从而自动、高效地读取或采集互联网数据的程序或者脚本。当今网络爬虫种类庞杂,被有效应用到社会多个行业领域,例如在交通信息获取中,可以应用该技术掌握事故车辆、天气、道路状况数据资料[1]。善意爬虫充分凸显了网络爬虫技术的实际应用价值,促进了数据采集技术的发展,方便用户从海量的数据中挖掘价值。
但技术是一把“双刃剑”,现实中网络爬虫行业的规范缺失和监管不力,导致爬虫技术在方便数据收集的同时,也可用于盗取企业商品信息、价格、评论等核心内容,抓取与贩卖个人隐私数据;侵占企业带宽资源,引起服务器死机,影响正常运营、用户访问体验以及数据的统计。因而,加强对恶意爬虫的规范和监管迫在眉睫。
2现状分析
随着科技的发展,爬虫行为充满网络生活。由于网络恶意爬虫的大肆蔓延以及其产生的巨大危害,国内网络爬虫行业现状也在不断变化。
2.1网络恶意爬虫的攻防现状
网络恶意爬虫以非法获取数据为目的,违反Robots协议,未经允许利用获取的数据换取利益。恶意爬虫大多通过以下途径爬取:(1)客户网页端,爬取者通过爬虫程序直接通过网页搜索用户身份信息,包括个人真实姓名、出生日期、住址等,获取后很有可能实施诈骗行为,公民个人财产受到损害。(2)网站特殊通道,这是编程人员为系统测试设置的漏洞,爬取者可以通过它直接访问网站的敏感数据,这些敏感数据很可能会成为网络攻击的源头,进而导致网络安全问题。(3)管理接口,它提供了网站管理者和使用者之间联系的通道,极大地方便了它们间的交流,优化了网站管理。
除此之外,网络恶意爬虫还在不断地升级变换,但目前针对恶意爬虫的检测和防御技术尚未成熟。
现有的网络爬虫检测技术分为四大类:基于访问日志分析的恶意实体检测;基于访问模式的检测;基于访问行为的检测;基于访问序列的检测[2]。过去的防御技术通常是利用验证码验证登录者的合法性,随着图像识别技术的发展,行为验证方法开始出现。它可以有效分析用户的“行为特征”并自主学习,极大地抵御了网络爬虫的危害。但是以上的技术解决恶意爬虫行为具有很大的限制性和错误率,且没有从根源上减少恶意爬虫行为。
2.2网络恶意爬虫的法律分析
过去,人们为了防范网络恶意爬虫行为,提出了Robots协议。Robots协议用来告诉浏览器,此客户端服务器中的内容是否可被任意爬取,属于为了防止其他人访问自己网站内容而设置的技术性措施,是行业中的商业规则,但它本身并无强制性,无法真正防范恶意爬虫。
现在,随着数据的社会经济价值被充分挖掘,由恶意爬虫导致的各类案件频繁出现。只借助Robots协议遏制恶意爬虫的方法不再适用,但相关规定并不完善。法律对网络恶意爬虫行为定义的关键是它是否侵犯了人们的敏感数据,而对于公共数据进行爬取,不会受到法律限制[3]。近年,国家对数据和信息的保护逐渐加强,规范网络恶意爬虫行为的法律法规数量不断增加。我国法律对于网络恶意爬虫的规定,主要体现在爬取敏感數据的规制,比如《反不正当竞争法》《著作权法》和《网络安全法》等法律规定了爬取的范围,即爬虫行为是否构成了不正当竞争[4]。
3防范网络恶意爬虫的对策
我国针对恶意爬虫的界定标准尚未明确,相关部门监管能力有限,导致用户隐私数据、政府重要数据和企业核心数据等被肆意侵犯。为了遏制数据在互联网上“裸奔”的现象,必须制定更加严谨的防范对策,建立更加全面的防范法律,加强对网络恶意爬虫各方面的监管力度。
3.1制定恶意爬虫界定标准
现今的网络恶意爬虫行为可以分为两类:网络爬虫恶意爬取、网络爬虫恶意攻击。
在定义界定标准前,先对网络爬虫的合法抓取行为简要阐述。Robots协议是以单方面宣示的方式,明确规定了网络爬虫的抓取范围,可以作为法律判断的参考依据。因此,在遵循"君子协议"行为准则的前提下,只抓取规定范围内的数据,即为合法的网络爬虫行为。
1)网络爬虫恶意爬取行为界定标准
以下四种情况属于常见的网络爬虫恶意抓取行为的界定标准:(1)对于享有著作权且具有独立创造性质的数据,若在抓取后未经过授权私自进行公开传播,属于侵犯《著作权法》中的信息网络传播权的行为。(2)在此基础上,若该数据属于某平台的资源,被公开传播、谋取利益,导致互联网市场的竞争平衡或优势被破坏、平台利益被侵害,属于违背《反不正当竞争法》的行为。(3)另一方面,若该数据属于商业秘密,即其具有非公开性、非排他性、利益相关、期限保护的特点,因此,若未保证使用的保密性和秘密性,而是公开披露和利用,则属于对商业秘密的侵犯。(4)此外,公民个人身份信息,例如姓名、身份证号、指纹等,作为识别个人身份的关键要素,《网络安全法》《民法总则》等法律中都涉及对其的保护,形成系统性的相关规定。因此,在未经用户授权并且本人不愿意被他人知晓的情况下,抓取了用户的个人隐私信息甚至进行第三方交易,则属于严重侵犯公民的个人隐私权。
2)网络爬虫恶意攻击行为界定标准 网络爬虫的恶意攻击行为通过占用网络宽带资源,造成網络服务器无法及时、高效地处理用户的访问需求,严重的还会导致服务器死机[5]。
信息时代下的计算机系统中,数据库是不可或缺的一员。但数据库存在常见安全漏洞,例如:部署问题、错误配置、SQL注入、缓冲区溢出和权限滥用等,所以在网络中的恶意攻击者瞄准这些漏洞,控制代理服务器投掷大量的数据包给目标服务器,导致服务器资源被严重占用,甚至服务器崩溃。
若被侵入的计算机信息系统属于国家事务、国防建设、尖端科技技术领域的系统,按照《刑法》的有关规定,无论是否窃取数据,是否造成了破坏,均会构成非法侵入计算机信息系统罪[3]。而若被侵入的是一般计算机信息系统,只有在满足"情节严重"的前提下,才会构成犯罪。
3.2加强恶意爬虫技术防范
恶意爬虫防御技术一直以来都是极受关注的主题。通过已有的爬虫访问频率、规律以及收集的日志作为基础实现的常见防御方式有:(1)通过Break Out异常检测算法,对异常流量的IP地址进行封禁,缓解网站服务的压力。(2)采取验证码对网站流量进行限制、利用Web页面元素的随机性进行防御的主动性机制,例如图形和行为式验证码。
而针对个别变种的爬虫而言,丁文豪提出了一种Web页面动态化算法,即针对网页具有静态性、单一性和确定性而造成的恶意爬虫行为及其变种爬虫的攻击的自动化实施,将会通过动态加密算法和动态陷阱技术将Web页面施行自适应的随机变化算法,来以此成功避免[2]。由于技术高速发展,对于恶意爬虫的技术防范将会得到更好的完善,网络的安全程度也会大大得到改善。
3.3健全恶意爬虫法律法规
由上文法律现状分析可知,目前针对恶意爬虫的法律并不规范,例如在《数据安全管理办法(征求意见稿)》中,尽管对网络爬虫的抓取行为做出了相关的规定,但实际上并未明确和细化责任的相关内容。
法律法规首先要从多方面详细地对恶意爬虫行为进行界定。根据被爬数据的性质,即是否可以自由抓取这一重要标准,我们可对《反不正当竞争法》等已经做出一些界定的法律进一步完善。同时,抓取数据的大小、爬虫目的等也是判断恶意爬虫的重要依据,例如网络爬虫是否对目标网站的功能和正常运营造成干扰。
其次,已有的法律体系还需要增强对网络恶意爬虫行为的约束力。对于多样的恶意爬虫,可以根据其影响程度的大小划分出不同的等级,规定不同程度的判决结果。
3.4制定科学的监管手段
恶意爬虫的技术防范和法律体制完善的背后也需要监管部门加大管控力度,采取科学的监管手段。面对互联网上数以亿计的爬虫,相关部门应该设计一个能够自动监测网站上爬虫数量和速度,并能够及时控制爬虫的启停,实时防护的监控系统,以避免网站面临过大的爬虫压力,造成资源损耗等问题。
研究近年来网络恶意爬虫事件,可以发现程序员群体缺乏职业道德、网络用户缺乏自我保护意识是使爬虫程序触犯法律边界,用户隐私数据被“窃取”和“掠夺”的主要原因,所以监管部门要担任起提高程序员和用户对于网络恶意爬虫的认识及其相关法律意识的责任,定期对程序员进行职业道德教育。这对于爬虫领域的发展来说会减少很多阻碍和隐患,而且监管也会更加有力可施。
监管部门也应当强制要求各企业在用户授权同意的情况下收集、存储、处理、利用和传递用户的个人信息,加强对用户的隐私数据风险提示,不得以默认授权、功能捆绑等方式误导用户。企业内部也应当健全企业用户个人信息保护制度,采取反爬虫技术保护企业信息安全,定时开展信息保护的自查工作,及时整改漏洞之处。
4结语
网络爬虫虽然助推了数据查询、收集和分析技术,促进了网络数据的共享,但也不能触碰法律的底线,否则原本中立的技术就会变为非法。网络恶意爬虫势头正足,监管部门应主动建议国家出台相关法律政策,积极倡导行业自律,规制网络爬虫行为,加强对爬虫活动的监管力度,解决网络爬虫领域监管空白的现实性和迫切性问题。
参考文献:
[1] 李文华.解析网络爬虫技术原理[J].福建电脑,2021,37(1):95-96.
[2] 丁文豪.恶意爬虫主动防御技术研究与实现[D].北京:北京邮电大学,2019.
[3] 李美香,王德亮.网络爬虫恶意爬取行为的法律分析[J].农村经济与科技,2020,31(7):391-392.
[4] 邱波.滥用爬虫技术的刑事风险与刑法应对[J].信息安全研究,2020,6(9):830-838.
[5] 杨志琼.数据时代网络爬虫的刑法规制[J].比较法研究,2020(4):185-200.
【通联编辑:代影】
关键词:恶意爬虫;爬虫技术;数据安全
中图分类号:TP393 文献标识码:A
文章编号:1009-3044(2021)30-0072-02
开放科学(资源服务)标识码(OSID):
1问题的提出
网络爬虫是一种按照设定的规则,通过模拟人工点击来自动抓取万维网数据和信息、自动下载网页功能,从而自动、高效地读取或采集互联网数据的程序或者脚本。当今网络爬虫种类庞杂,被有效应用到社会多个行业领域,例如在交通信息获取中,可以应用该技术掌握事故车辆、天气、道路状况数据资料[1]。善意爬虫充分凸显了网络爬虫技术的实际应用价值,促进了数据采集技术的发展,方便用户从海量的数据中挖掘价值。
但技术是一把“双刃剑”,现实中网络爬虫行业的规范缺失和监管不力,导致爬虫技术在方便数据收集的同时,也可用于盗取企业商品信息、价格、评论等核心内容,抓取与贩卖个人隐私数据;侵占企业带宽资源,引起服务器死机,影响正常运营、用户访问体验以及数据的统计。因而,加强对恶意爬虫的规范和监管迫在眉睫。
2现状分析
随着科技的发展,爬虫行为充满网络生活。由于网络恶意爬虫的大肆蔓延以及其产生的巨大危害,国内网络爬虫行业现状也在不断变化。
2.1网络恶意爬虫的攻防现状
网络恶意爬虫以非法获取数据为目的,违反Robots协议,未经允许利用获取的数据换取利益。恶意爬虫大多通过以下途径爬取:(1)客户网页端,爬取者通过爬虫程序直接通过网页搜索用户身份信息,包括个人真实姓名、出生日期、住址等,获取后很有可能实施诈骗行为,公民个人财产受到损害。(2)网站特殊通道,这是编程人员为系统测试设置的漏洞,爬取者可以通过它直接访问网站的敏感数据,这些敏感数据很可能会成为网络攻击的源头,进而导致网络安全问题。(3)管理接口,它提供了网站管理者和使用者之间联系的通道,极大地方便了它们间的交流,优化了网站管理。
除此之外,网络恶意爬虫还在不断地升级变换,但目前针对恶意爬虫的检测和防御技术尚未成熟。
现有的网络爬虫检测技术分为四大类:基于访问日志分析的恶意实体检测;基于访问模式的检测;基于访问行为的检测;基于访问序列的检测[2]。过去的防御技术通常是利用验证码验证登录者的合法性,随着图像识别技术的发展,行为验证方法开始出现。它可以有效分析用户的“行为特征”并自主学习,极大地抵御了网络爬虫的危害。但是以上的技术解决恶意爬虫行为具有很大的限制性和错误率,且没有从根源上减少恶意爬虫行为。
2.2网络恶意爬虫的法律分析
过去,人们为了防范网络恶意爬虫行为,提出了Robots协议。Robots协议用来告诉浏览器,此客户端服务器中的内容是否可被任意爬取,属于为了防止其他人访问自己网站内容而设置的技术性措施,是行业中的商业规则,但它本身并无强制性,无法真正防范恶意爬虫。
现在,随着数据的社会经济价值被充分挖掘,由恶意爬虫导致的各类案件频繁出现。只借助Robots协议遏制恶意爬虫的方法不再适用,但相关规定并不完善。法律对网络恶意爬虫行为定义的关键是它是否侵犯了人们的敏感数据,而对于公共数据进行爬取,不会受到法律限制[3]。近年,国家对数据和信息的保护逐渐加强,规范网络恶意爬虫行为的法律法规数量不断增加。我国法律对于网络恶意爬虫的规定,主要体现在爬取敏感數据的规制,比如《反不正当竞争法》《著作权法》和《网络安全法》等法律规定了爬取的范围,即爬虫行为是否构成了不正当竞争[4]。
3防范网络恶意爬虫的对策
我国针对恶意爬虫的界定标准尚未明确,相关部门监管能力有限,导致用户隐私数据、政府重要数据和企业核心数据等被肆意侵犯。为了遏制数据在互联网上“裸奔”的现象,必须制定更加严谨的防范对策,建立更加全面的防范法律,加强对网络恶意爬虫各方面的监管力度。
3.1制定恶意爬虫界定标准
现今的网络恶意爬虫行为可以分为两类:网络爬虫恶意爬取、网络爬虫恶意攻击。
在定义界定标准前,先对网络爬虫的合法抓取行为简要阐述。Robots协议是以单方面宣示的方式,明确规定了网络爬虫的抓取范围,可以作为法律判断的参考依据。因此,在遵循"君子协议"行为准则的前提下,只抓取规定范围内的数据,即为合法的网络爬虫行为。
1)网络爬虫恶意爬取行为界定标准
以下四种情况属于常见的网络爬虫恶意抓取行为的界定标准:(1)对于享有著作权且具有独立创造性质的数据,若在抓取后未经过授权私自进行公开传播,属于侵犯《著作权法》中的信息网络传播权的行为。(2)在此基础上,若该数据属于某平台的资源,被公开传播、谋取利益,导致互联网市场的竞争平衡或优势被破坏、平台利益被侵害,属于违背《反不正当竞争法》的行为。(3)另一方面,若该数据属于商业秘密,即其具有非公开性、非排他性、利益相关、期限保护的特点,因此,若未保证使用的保密性和秘密性,而是公开披露和利用,则属于对商业秘密的侵犯。(4)此外,公民个人身份信息,例如姓名、身份证号、指纹等,作为识别个人身份的关键要素,《网络安全法》《民法总则》等法律中都涉及对其的保护,形成系统性的相关规定。因此,在未经用户授权并且本人不愿意被他人知晓的情况下,抓取了用户的个人隐私信息甚至进行第三方交易,则属于严重侵犯公民的个人隐私权。
2)网络爬虫恶意攻击行为界定标准 网络爬虫的恶意攻击行为通过占用网络宽带资源,造成網络服务器无法及时、高效地处理用户的访问需求,严重的还会导致服务器死机[5]。
信息时代下的计算机系统中,数据库是不可或缺的一员。但数据库存在常见安全漏洞,例如:部署问题、错误配置、SQL注入、缓冲区溢出和权限滥用等,所以在网络中的恶意攻击者瞄准这些漏洞,控制代理服务器投掷大量的数据包给目标服务器,导致服务器资源被严重占用,甚至服务器崩溃。
若被侵入的计算机信息系统属于国家事务、国防建设、尖端科技技术领域的系统,按照《刑法》的有关规定,无论是否窃取数据,是否造成了破坏,均会构成非法侵入计算机信息系统罪[3]。而若被侵入的是一般计算机信息系统,只有在满足"情节严重"的前提下,才会构成犯罪。
3.2加强恶意爬虫技术防范
恶意爬虫防御技术一直以来都是极受关注的主题。通过已有的爬虫访问频率、规律以及收集的日志作为基础实现的常见防御方式有:(1)通过Break Out异常检测算法,对异常流量的IP地址进行封禁,缓解网站服务的压力。(2)采取验证码对网站流量进行限制、利用Web页面元素的随机性进行防御的主动性机制,例如图形和行为式验证码。
而针对个别变种的爬虫而言,丁文豪提出了一种Web页面动态化算法,即针对网页具有静态性、单一性和确定性而造成的恶意爬虫行为及其变种爬虫的攻击的自动化实施,将会通过动态加密算法和动态陷阱技术将Web页面施行自适应的随机变化算法,来以此成功避免[2]。由于技术高速发展,对于恶意爬虫的技术防范将会得到更好的完善,网络的安全程度也会大大得到改善。
3.3健全恶意爬虫法律法规
由上文法律现状分析可知,目前针对恶意爬虫的法律并不规范,例如在《数据安全管理办法(征求意见稿)》中,尽管对网络爬虫的抓取行为做出了相关的规定,但实际上并未明确和细化责任的相关内容。
法律法规首先要从多方面详细地对恶意爬虫行为进行界定。根据被爬数据的性质,即是否可以自由抓取这一重要标准,我们可对《反不正当竞争法》等已经做出一些界定的法律进一步完善。同时,抓取数据的大小、爬虫目的等也是判断恶意爬虫的重要依据,例如网络爬虫是否对目标网站的功能和正常运营造成干扰。
其次,已有的法律体系还需要增强对网络恶意爬虫行为的约束力。对于多样的恶意爬虫,可以根据其影响程度的大小划分出不同的等级,规定不同程度的判决结果。
3.4制定科学的监管手段
恶意爬虫的技术防范和法律体制完善的背后也需要监管部门加大管控力度,采取科学的监管手段。面对互联网上数以亿计的爬虫,相关部门应该设计一个能够自动监测网站上爬虫数量和速度,并能够及时控制爬虫的启停,实时防护的监控系统,以避免网站面临过大的爬虫压力,造成资源损耗等问题。
研究近年来网络恶意爬虫事件,可以发现程序员群体缺乏职业道德、网络用户缺乏自我保护意识是使爬虫程序触犯法律边界,用户隐私数据被“窃取”和“掠夺”的主要原因,所以监管部门要担任起提高程序员和用户对于网络恶意爬虫的认识及其相关法律意识的责任,定期对程序员进行职业道德教育。这对于爬虫领域的发展来说会减少很多阻碍和隐患,而且监管也会更加有力可施。
监管部门也应当强制要求各企业在用户授权同意的情况下收集、存储、处理、利用和传递用户的个人信息,加强对用户的隐私数据风险提示,不得以默认授权、功能捆绑等方式误导用户。企业内部也应当健全企业用户个人信息保护制度,采取反爬虫技术保护企业信息安全,定时开展信息保护的自查工作,及时整改漏洞之处。
4结语
网络爬虫虽然助推了数据查询、收集和分析技术,促进了网络数据的共享,但也不能触碰法律的底线,否则原本中立的技术就会变为非法。网络恶意爬虫势头正足,监管部门应主动建议国家出台相关法律政策,积极倡导行业自律,规制网络爬虫行为,加强对爬虫活动的监管力度,解决网络爬虫领域监管空白的现实性和迫切性问题。
参考文献:
[1] 李文华.解析网络爬虫技术原理[J].福建电脑,2021,37(1):95-96.
[2] 丁文豪.恶意爬虫主动防御技术研究与实现[D].北京:北京邮电大学,2019.
[3] 李美香,王德亮.网络爬虫恶意爬取行为的法律分析[J].农村经济与科技,2020,31(7):391-392.
[4] 邱波.滥用爬虫技术的刑事风险与刑法应对[J].信息安全研究,2020,6(9):830-838.
[5] 杨志琼.数据时代网络爬虫的刑法规制[J].比较法研究,2020(4):185-200.
【通联编辑:代影】