基于单词匹配和编辑距离的钓鱼贝叶斯检测器研究

来源 :计算机时代 | 被引量 : 0次 | 上传用户:weichungchen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要: 网络钓鱼是目前信息安全领域的一个研究热点,基于域名信息的钓鱼检测是使用较为广泛的一种方法。文章利用编辑距离寻找与已知正常域名相近的域名,根据域名信息提取域名单词最大匹配特征、域名分割特征和URL分割特征,利用这些特征训练贝叶斯分类器,根据给定特征属于哪一类的概率来判断此URL是否为钓鱼URL,实验结果表明该方法能有效提高判断准确性。
  关键词: 钓鱼检测; 单词匹配; 编辑距离; 贝叶斯分类器
  中图分类号:TP309 文献标志码:A 文章编号:1006-8228(2015)05-16-03
  Abstract: Phishing is one of the research hotspot in the field of information security at present, and URL based phishing detection is a method used widely. This paper proposes a phishing detection method which searches approximate normal domain names by calculating edit distance firstly. Then domain name word maximum match features, domain name segmentation features and URL segmentation features are extracted according to the domain name information. Finally, a bayes binary classifier, which is trained by using these features, can distinguish whether a URL is phishing URL or not. The experimental results show that this method can effectively improve the judgment accuracy.
  Key words: phishing detection; words matching; edit distance; bayes classifier
  0 引言
  目前电子商务、网络银行逐渐走入人们的日常生活,商务类应用呈上升趋势,与此同时,互联网络安全问题十分严峻,其中网络钓鱼攻击作为当今在线交易和电子商务所面临的最危险的欺诈形式已越来越成为关注的焦点。
  反钓鱼技术涉及领域极广,应用场景和问题领域多种多样,目前并没有统一的、权威的研究视角和方法。研究人员从多个层面出发,提出了反钓鱼的方法和机制。
  ⑴ 基于人工判定和质量评价的黑名单技术
  该类技术通过维护一个黑名单来阻止用户对已发现的钓鱼网站的访问。黑名单的建立主要通过人工举报和审查,或者用户群对网站质量评价来完成,例如:Cloudmark的黑名单是由大量用户对网站的评级来维护,IE和Firefox等浏览器通过用户举报实时更新钓鱼网页黑名单[1]。
  ⑵ 基于规则的启发式检测技术
  利用钓鱼网站的特征自动判断网站真伪,如SpoofGuard分析钓鱼网站启发式特征,包括主机域名、网页图片、页面链接等判断真假;Zhang等人提出通过对网页文本内容的特征定义网站身份,然后利用搜索引擎的结果来判断网站真伪;Fu等人提出的EMS算法是通过计算两个网页的视觉相似性来判断是否为钓鱼网页[2]。
  ⑶ 基于统计机器学习的模式分类技术
  该类技术是将钓鱼攻击检测视为一个二元分类问题,即如何判定未知网页为正常网页或钓鱼网页。一般采用统计学习的方法建立分类模型,如Likarish等人借鉴垃圾邮件的检测方法,建立钓鱼特征贝叶斯过滤器;Ma等人通过对 URL黑白名单的字符串特征的统计学习,形成基于URL的分类器[3]。
  以上三类方法各有利弊。黑名单检测结果准确可靠,但实时性差,并浪费大量人工资源;启发式检测方法可实时检测钓鱼网站,若检测规则加入人工干预后准确性极高,但鲁棒性稍差;基于机器学习的模式分类技术有很好的鲁棒性,检出率也较高,但是准确性不如启发式检测,且需要大量钓鱼样本训练分类器。本文提出一种基于URL的贝叶斯二值分类方法,首先利用编辑距离寻找与已知域名相近的域名,提取域名单词最大匹配特征、域名分割特征和URL分割特征,然后用上述特征训练贝叶斯分类器,根据给定特征属于哪一类的概率判断是否为钓鱼URL。
  1 基于URL的钓鱼检测方法
  基于URL的钓鱼检测主要分为两种:一是根据URL检索与之相似的域名,以发现潜在钓鱼网站;二是用机器学习的方法判断URL是否为钓鱼URL。
  1.1 基于域名分割的相似度判断
  许多钓鱼网站采用混淆域名的方法蒙蔽用户,如中国工商银行(www.icbc.com.cn)的一个钓鱼网站就是www.1cbc.com.cn。通过分析二者的相似度可判断是否为钓鱼网站。首先利用“.”对网站域名分割域名,如对www.icbc.com.cn分割为:“www”、“icbc”、“com”、“cn”;然后对各部分相似度匹配,匹配原则为判断域名长度是否一致,并将各部分的相似度相加,结果若与分割后的部分越接近说明相似度越高。这种方法会造成一个域名可能产生大量相似域名,因而只能作为初步判断之用[4]。
  1.2 基于字符串编辑距离的相似度判断
  编辑距离表示一个字符串经过多少次增加、删除及修改转化为另一字符串,编辑距离越小,字符串越相似。如果2个字符串为空,则编辑距离为0;如果2个字符串中一个是空,则ed(ε,s)=|s|;其余情况用式⑴计算:   1.3 域名单词最大匹配得到的单词特征
  一般地,钓鱼网站的域名包含英文单词,本方法是与中文切词的最大匹配方法类似,其算法流程如图1所示。其中,域名分割单元是指用“.”把一个域名分割的部分。
  2 基于贝叶斯分类器的钓鱼检测方法
  本文用贝叶斯分类器检测钓鱼URL。贝叶斯分类器的理论基础是贝叶斯理论,它根据给定样本属于某个类的概率进行分类[6]。假设在给定类别的情况下,数据x服从一定的概率分布,如果类型为正,则x出现的概率为P(x|class=+1)。因此,后验概率Pr(class=+1|x)可用下式计算:
  其中,xj是向量x的第j个元素。
  根据一个类别在训练数据中出现的频率计算先验概率P(x|class=+1)和Pr(class=-1),对于x,P(x)是一个常数,朴素贝叶斯算法仅给出类型元素分布的估计,用以下两种方式估计该分布。
  ⑴ 正规密度。给定一个类别,假定元素值趋于正态分布。对每个xj,P(xj|class=+1)和P(xj|class=-1)为带均值和方差的正态分布,仅需估计均值和方差。由于已经训练了样本,可用训练结果估计参数,用训练数据的最大似然估计来获得每个类型元素样本的均值和方差。
  ⑵ 核密度。如果去除正态分布的假设,就可得到另一种估计P(xj|class=+1)和P(xj|class=-1)分布更强大的模型。
  计算完P(xj|class=+1)和P(xj|class=-1)后,即可对x分类。如果Pr(class=+1|x)>Pr(class=-1|x),则x的类别为正,否则类别为负。
  贝叶斯分类钓鱼URL检测流程如下:
  具体步骤如下:
  ⑴ 获取大量钓鱼网站URL作为测试样本;
  ⑵ 抽取URL特征;
  ⑶ 在抽取完特征值后生成训练样本,对贝叶斯分类器进行训练;
  ⑷ 生成特征向量,用贝叶斯分类器作分类检测,最终判断是否为钓鱼网站的URL地址。
  3 实验与结果分析
  实验所用数据中钓鱼 URL数据来自安全联盟和http://www.phishtank.com共计有19247个,而正常URL的个数是15145。通过编写爬虫程序,从网站下载网页后把网页解析为DOM树,然后将网站中的URL信息提取出来。本文采用仅单词匹配和单词匹配与URL分割二者结合后,钓鱼网站检测的准确率对比图如图3所示,其中X坐标代表测试中URL数据所占百分数,Y坐标代表准确率,WM表示采用仅单词匹配的实验结果,WM+US表示单词匹配与URL分割二者结合后的实验结果。从图3中可看出,采用WM+US的检测准确率更高。
  4 结束语
  目前网络钓鱼检测已是电子商务发展的需要,其科学意义和应用价值正受到世界各国学术界、工业界的普遍重视。本文介绍了当前钓鱼检测所涉及的相关技术,对基于编辑距离和单词匹配的贝叶斯钓鱼分类检测技术进行了深入研究。该分类器根据编辑距离找出与给定域名的相似域名,从域名信息中提取域名单词最大匹配特征、域名分割特征和URL分割特征训练贝叶斯钓鱼分类器,用来判定未知的URL是否为钓鱼URL。实验结果表明,该方法能有效提高判断的准确性。
  参考文献:
  [1] Cao Jiuxin, Dong Dan, Mao Bo, Wang Tianfeng,Phishing detection method based on URL features[J].Journal of Sourtheast University,2013.2(29):134-138
  [2] Ma J, Saul L K, Savage S, et al. Beyond Blacklists: Learning to Detect Malicious Web Sites from Suspicious URLs[C]//Proc. of the 15th ACM SIGKDD Conference on Knowledge Discovery and Data Mining.Paris, France: [s. n.],2009:1245-1254
  [3] Bilge L, Kirda E, Kruegel C, et al. EXPOSURE: Finding
  Malicious Domains Using Passive DNS Analysis[C]//Proc. of the 18th Annual Network & Distributed System Security Symposium. California,USA: [s. n.],2011:1-17
  [4] 郑礼雄,李青山,李素科,袁春阳.基于域名信息的钓鱼URL探测[J].计算机工程,2012.38(10):108-110
  [5] 蔺亚东.基于URL特征的钓鱼网站检测方式[J].电子测试,2014.3:70-72
  [6] 邹永斌,陈兴蜀,王文贤.基于贝叶斯分类器的主题爬虫研究[J].计算机应用研究,2009.26(9):3418-3421
其他文献
摘 要: 知识地图是知识资源挖掘重组、共享创新的主要手段。为构建课程知识地图,提出利用层次聚类和关联规则挖掘方法发现课程大数据中的概念及概念间关系。基于课程知识地图给出高校评教指标,包括内容的全面性、创新性、趣味性、正确性、及时性,以及意见反馈响应度等。经实验验证,基于该方法的评教指标能全面反映教师的授课水平,有效降低“性格匹配”等主观因素的影响,提高教师与学生双向沟通的学习能力。  关键词: 知
期刊
摘 要: 以海洋经济背景下群岛新区建设为例,深入分析在海洋经济、信息经济和“互联网+”经济发展大势的多重推动下对相关专业化人才的迫切需求,进而分析目前计算机专业教学实践中存在的不足,提出计算机专业人才培养模式创新的观点和思路。在教学理念、人才培养、专业建设等方面探索创新发展,使高校培养出来的计算机专业人才更能适应当今的经济社会发展。  关键词: 海洋经济; 信息经济; 计算机专业; 人才培养; 模
期刊
DOI:10.16644/j.cnki.cn33-1094/tp.2016.07.014  摘 要: 阐述了Web数据挖掘与电子商务的概念及Web数据挖掘的分类与技术;以淘宝网为例探讨了Web数据挖掘在电子商务中的应用。电子商务领域丰富的信息资源,为数据挖掘的应用提供了广阔的空间,将数据挖掘技术应用到电子商务中,可以极大地提高企业获取信息的能力,帮助企业制定更具针对性和个性化的商业决策,提高企业市
期刊
摘 要: 针对C语言程序设计课程知识点繁琐,学生易陷入枯燥繁琐的语法和语句规则中而无所适从,提出能力导向的C语言“团队式”教学模式。采用项目教学法,模拟工业界的项目开发过程,将学生分成各个项目组,利用国际上工业界通用的项目管理软件Rally对每个项目组进行管理,改革传统考核方式,以进一步发挥学生的主观能动性,提高其综合能力。  关键词: C语言; 能力导向; 项目教学法; 团队式  中图分类号:G
期刊
摘 要: 在明确“微课”概念及其作用的基础上,提出了“微课”知识点“适合和能够”的原则,阐明了“微课”在高职教学中具有特殊应用价值和广阔应用前景的定位。通过对高职“计算机网络基础”课程“微课”应用要求的深入剖析,提出了转变观念、更新认识、明确目标、加强与课程的教学整合、完善技术培训制度的应用策略。以实例说明了“微课”在课前预习、课堂教学、实验实训以及在手持移动设备上课后学习的应用策略。  关键词:
期刊
摘 要: 从物联网技术的发展和应用研究入手,就物联网技术在安防领域的应用进行探讨,分析了安防物联网三个层面的技术构成和硬件体系,并对安防物联网技术的发展作了展望。  关键词: 物联网; 安防; 智能; 网络  中图分类号:TP393 文献标志码:A 文章编号:1006-8228(2015)08-34-02  Application of internet of things in security
期刊
摘 要: 计算机网络课程中有很多技术概念,这些概念让很多初学者感到抽象而枯燥。为了提高学生的学习兴趣,将抽象的网络技术概念变得生动而直观,探讨了案例+实验教学方法。以一次教学活动为例,采用Packet Tracer为实验平台,介绍了案例+实验教学法在计算机网络教学中的实践过程。实践证明,采用案例+实验教学法来组织教学,能够充分提高学生学习兴趣,加深学生对理论知识的理解。  关键词: 计算机网络;
期刊
摘 要: 以杨凌职业技术学院信息工程分院为例,针对计算机实验实训室管理过程中存在的机器使用频率高、软件更换频繁、人员流动性及日常维护难度大等问题,从实训室人员的素质及现状、实训室规章制度的执行、机器设备的日常维护与维修、运行环境管理及实训室安全等几个方面研究了计算机实验实训室管理方法及策略。  关键词: 管理员; 机器设备; 网络同传; 环境; 安全  中图分类号:TP308 文献标志码:A 文章
期刊
摘 要: 为全面有效地掌握及整合企业信用信息,国家质检总局建立了一套进出口企业信用管理系统,制定了企业信用管理办法及评价标准。文章在分析出口食品加工企业检验检疫信用评价指标体系的基础上,建立了一种基于极限学习机的检验检疫信用评价模型。实验结果证明,该模型可有效预测企业信用等级,仅需预先确定隐含层神经元数目而无需设置其他参数,减少了人为干扰因素,可为检验检疫信用评价管理提供参考。  关键词: 极限学
期刊
摘 要: 以Access数据库课程为例,以培养面向应用型人才为目标,对公共计算机课程的实践教学现状进行了分析研究。探讨了调整实验教学内容、改革实验教学模式和改革考核方式等具体措施,并提出建议。  关键词: Access数据库; 实验教学; 公共计算机课程; 教学改革  中图分类号:G642 文献标志码:A 文章编号:1006-8228(2015)04-65-03  Abstract: Taking
期刊