大众点评反爬虫系统的设计与实现

来源 :南京大学 | 被引量 : 0次 | 上传用户:qhxfxfxf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网应用的发展,爬虫技术越来越普及,恶意的或设计实现较差的爬虫,产生大量占用服务器资源、泄露隐私数据等负面问题。反爬虫成为网站管理者的一项重要课题,开发反爬虫系统具有十分重要的作用和意义。本文首先介绍了该系统的项目背景,对爬虫特征和当前爬虫检测技术研究现状进行调研,选用基于特征分析的检测技术检测爬虫,综述了消息总线架构模式、Spring MVC框架、Storm框架和布隆过滤器等技术。本文阐述了反爬虫系统的工作原理,介绍了项目总体规划,确定系统边界,详细分析了系统的功能性需求、非功能性需求和主要处理流程。在此基础上,设计了系统总体结构,划分了功能模块,明确了系统包之间的逻辑关系,确定模块之间的交互流程,给出了系统的部署设计、系统数据的E-R关系,设计了数据库表,分别对消息总线、拦截处理、后台管理和实时计算等模块进行了分析设计,并给出这些模块的具体实现细节和实现结果。该系统根据爬虫的特征,能实时准确地检测爬虫,区分来自正常搜索引擎的爬虫与恶意爬虫,并拦截恶意爬虫。另外该系统采取包括惩罚在内的措施,加速爬虫的识别,提供Web管理页面供网站管理员设置黑白名单,配置拦截规则和计算规则,展示拦截记录的统计信息等。目前该反爬虫系统已在大众点评得到实际的应用,日均拦截量达到千万级,为企业节约了大量服务器资源,保护了企业数据安全。
其他文献
cBN涂层硬质合金刀具具有较高的硬度、耐磨性以及良好的抗冲击性和强韧性,是加工黑色金属材料的理想刀具。目前,国内外对cBN涂层硬质合金刀具的相关研究主要集中在实验研究,从微观原子角度上对其界面结合性能的研究较少。本文基于第一性原理与分子动力学方法,从微观原子角度上对cBN涂层WC-Co硬质合金刀具界面结合性能进行模拟研究,本研究对揭示该涂层刀具的界面结合机理、优化涂层制备工艺具有重要的理论和实际意
减速箱是港口起重机的重要运行部件,其运行状态对港口起重机的安全性和可靠性有着重要影响。为了防止减速箱突发故障,在工程上通常采用定时维修的方式。但是,由于减速箱故障存在偶然性且寿命分布较为分散,在此情况下,定时维修的方式容易造成“过度维修”和“维修不足”,因此,应当引入视情维修代替定时维修。而视情维修必须要有完善的状态监测技术和故障诊断算法作为支撑。本文着力于故障诊断算法的研究,基于当前处于研究热点
学位
学位
近年来,为了满足人们对通信、交通和电动工具等领域对动力电源的迫切需求,高比能锂离子电池作为一种高效清洁,成本低廉的储能装置受到了越来越多的关注。由于金属钠在地球中储量丰富,分布广泛,价格低廉;半电势高,适用性更广,因此钠离子电池有望作为未来锂离子电池的替代品。但是相对于锂离子而言,钠元素的半径要更大,因此传统的锂离子电极材料用于钠离子电池时,在钠离子的嵌入和脱嵌过程中,会出现材料膨胀、变形甚至粉化
四季秋海棠是一种常见的园林植物,它花期长、姿态优美,其生长发育常常受到低温和高光等环境因子的影响。目前,低温、高光胁迫下四季秋海棠生物合成代谢途径已有相关报道,但逆境下的调控机制尚不明确。课题组前期已完成低温、高光胁迫下四季秋海棠叶片转录组的测序,本研究从转录组数据中选取7个候选内参基因分析了它们在三组胁迫条件下的稳定性、克隆和分析了 个与低温和高光相关的BsMYB62转录因子。并以低温、高光胁迫
ADP核糖基化因子(ADP-ribosylation factor,ARF)是Ras基因超家族的成员,它们是大小约20kDa的鸟嘌呤核苷酸结合蛋白,属于小G蛋白超家族中的ARF亚家族。ARF作为霍乱毒素催化GS蛋白AD
中国股票市场成立至今,中国证券监督管理委员会针对股市进行了大力地调整与改革,但均集中于发行制度、退市制度。至此,在股市基础性制度中只有交易制度,如回转交易制度、涨跌停板制度还在进行广泛、深入的探讨。那么,我国现行的T+1回转交易制度是否合理?我国现行的10%涨跌停板制度是否合理?不同交易制度会对中国股票市场有何影响?可否设计出更加符合中国经济发展和深化改革的回转交易制度与涨跌停板制度?这些问题有待
学位
伏牛山是中国的南北地理分界线,也是我国重要的暖温带与北亚热带的气候分界线,是全球气候变化的敏感区域,也是我国油松分布的南界。油松(Pinus tabulaeformis Carriere)是中