中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2017)33-0079-02
Abstract: Now many criminals use phishing sites to steal the user’s personal information, steal the user’s property, causing huge losses to the user. Therefore, this paper uses the decision tree learning algorithm to extract the keywords, analyze and establish the phishing website feature model, and judge the unknown website. CART is a decision tree algorithm, but the majority voting method of CART decision tree will shield the influence of small class data type. Therefore, this paper improves the CART decision tree according to this point, introduces the cost function, and makes use of iteration and minimum mean square error Adjust the weight of the feature to increase the penalty. The experimental results show that the improved decision tree has successfully reduced the error rate of negative samples and improved the recognition rate in the analysis of unknown websites.
Key words: decision tree; URL identification; least-mean-square; cost function
1 背景
ID3算法是1986年由Quinlan提出的,是基于信息增益的选择[1] 。J.Ma[2]等人分析可疑URL 的词汇和主机属性采用词袋模型表示特征, 获得了成千上万的特征,运用特征匹配加上ID3算法檢测钓鱼网站。但ID3算法也存在缺陷,因为包含较多属性值的特征所含的信息增益一般会越高,所以ID3优先会选择有较多属性值的特征,从而构建的决策树往往不是最优的,只可以用于处理离散数据,不能用于处理连续数据。
C4.5算法是Quinlan本人对ID3算法的改进[3],引入了信息增益比(GainRatio)作为选择的准则。来自John Hopkins大学的Sujata与Google的研究员用URL特征做钓鱼模式识别进行了尝试[4],运用改进后的c4.5算法,取得了很好的成果。但在决策树生成过程中,频繁的对训练的数据集排序和扫描,增加了算法的时间复杂度。
2 CART决策树
CART(Classification And Regression Tree)算法由L.Breiman,J.Friedman,R.Olshen和C.Stone于1984年提出[5],即分类回归算法,简称CART算法,分类问题中含有K个类别,样本点属于第k类的概率为pk对于给定的样本集D
[Gini(D)=k=1γk′≠kpkpk′=1-k=1γp2k] (1)
3 实验方法
1) 算法改进
基于Cart决策树的基本方法,对样本进行随机分类,并对样本进行基本学习,计算当前漏报率(将钓鱼网站误判为正常网站的比例)和误报率(将正常网页误判的钓鱼网站的比例)的比例设为误差输出值d(n),进行归一化,训练开始漏报率和误报率没有权值调整,初始为1:1的比例,定义估计误差 [e(n)=d(n)-d(n)] (2)
[J(w)=E|e(n)2|=Ee(n)e*(n)] (3)
[Rw0=p] (4)
1) 初始化,使得n=0,权向量[w(0)=0],估计误差[e(0)=d(0)-d(0)=d(0)],输入向量[u(0)=u(0)0...0T]。
2) 对数据集D抽取固定样本数,进行CART决策树生成学习器1,2,...,n,记录每个学习器的误差输出值d(n)和特征权值。
3) 对于n=0,1,...更新权向量[w(n 1)=w(n) μu(n)e*(n)],更新期望信号的估计[d(n 1)=wH(n 1)u(n 1)],设定步长μ为0.02,求得估计误差[e(n 1)=d(n 1)-d(n 1)]。
4) 重复步骤2,3。
4 数据分析
1) 数据收集
本实验采用的数据来自UCI Machine Learning Repository的Pishing Website数据子集[9],数据来源于Google引擎记录,PishingTank记录。其中正常网页1491个,钓鱼网站1054个。训练集和预测集按照1:2的比例进行分配。主要白名单来源于Aleax中抽取的网页数据。黑名单由于变动具有时效性,所以实时跟踪主要黑名单来自2016年6月到2017年6月Phishing tank网站提供的钓鱼网页URL名单库。
5 实验评估及其结果分析
[P=TP TNP N] (5)
6 试验结果分析
