【摘 要】
:
传统的单纯基于URL黑名单识别方式在今天海量的钓鱼网站面前以显得力不从心,必须配合其他识别方式才能很好地工作。随后出现了许多新的识别方法,比如基于网页结构的识别方法,
论文部分内容阅读
传统的单纯基于URL黑名单识别方式在今天海量的钓鱼网站面前以显得力不从心,必须配合其他识别方式才能很好地工作。随后出现了许多新的识别方法,比如基于网页结构的识别方法,但是语言表达方式的多样性使得此种方法相当不可靠,几乎不可用。而基于图像识别的钓鱼网站识别方式衍生出多种识别方法,但是受制于图像识别本身的缺陷,其在识别时需要做到精确匹配,那么就要求钓鱼网站和被模仿的网站完全相似。因此对一大部分假冒购物网站就不能做到很好的识别,且工作时速度很慢。基于朴素贝叶斯的识别方法由于原理的限制使得工作时的效果不稳定,因此我们在这里探究新的使用K-Means与SVM相结合的算法,利用K-Means的优点,在识别网站之前对其进行一个分组,如果待识别网站是容易被模仿的钓鱼网站类型,那么就使用对应组别的特征参数对其进行识别即可。同时结合传统的URL黑名单机制和网页灰度匹配模块,这样就可以避免将新建立的部分合法网站错误识别为钓鱼网站。而要完成此种识别方式,总共完成了四部分的工作,即:一是流行样本库,专门收集当季典型流行钓鱼网站,于此同时获取网页有效内容并对其进行分词、删除停用词等操作并且分析总结出网站的一系列典型特征;二是对获取到的网页进行分组,并使用分析得到的特征建立样本模板;三是分组完毕后使用SVM分类算法对特征进行选取,获取有效的特征;四是在访问目标链接时实时收集目标网站的各个特征,然后使用SVM算法对其计算信誉度。通过这四部分的工作组成了钓鱼网站识别的完整流程。
其他文献
车牌自动识别系统是实现交通管理智能化的重要环节之一,研究车牌自动识别技术具有重要的实用价值。车牌自动识别系统一般包括车牌定位、字符分割和字符识别三部分。本文主要
信息检索是从信息集合中找出与用户需求相关的信息。本体作为一种表示知识的形式,具有良好的概念层次结构,支持推理功能,因此基于本体的信息检索能给检索服务性能带来极大的
随着微博用户数量的快速增长,微博的炒作现象也越来越严重。“网络水军”和“网络推手”等利用微博散布谣言及虚假信息,严重干扰了网络秩序。目前,在对微博炒作的研究方面,主
随着遥感卫星技术的发展应用,遥感图像在日常生活和军事上具有重要作用。多光谱图像具有较高的光谱分辨率,光谱信息丰富,但由于物理器件的限制,空间分辨率较低,而全色图像具
号码携带系统主要是为了提供这样一种服务,用户可以随意更换手机服务的运营商,但是原拥有的手机号码不用改变。对于运营商内部的从2G到3G的携号转网可以通过自身的升级实现,
自然景物模拟在计算机图形学占有非常重要的地位,而且自然景观的三维模拟在电脑游戏、电影特效、虚拟现实等领域中使用得越来越频繁。虚拟模拟常用的方法有分形几何方法、纹
本文介绍了作者在跨函数分析研究方面所做的工作,包括跨函数分析技术的设计与实现以及对现有DTSJava(Defect Testing System for Java)系统的改进,将跨函数分析模块与区间运
P2P网络和SIP协议都是目前互联网技术的研究热点。SIP协议凭借其简单、易于扩展等诸多长处得到了越来越多的应用,但是现有的SIP系统大多都存在“单点失效”和“性能瓶颈”等
本文首先对Web日志挖掘的发展现状及存在的问题进行了系统性阐述,按Web日志挖掘的流程及相关技术进行了介绍和探讨。重点分析和研究了Web日志数据预处理、聚类分析技术以及算
随着计算机技术和互联网的迅速发展,各种信息呈爆炸式增长,人们对信息精确定位的需求促进了自然语言处理技术的发展。指代消解是自然语言处理的重点和难点之一,在文本摘要、