钓鱼网页联合特征与智能检测算法研究与实现

来源 :西安工业大学 | 被引量 : 0次 | 上传用户:zhu0756
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
钓鱼网页欺诈是现代网络犯罪的主要手段。近几年,钓鱼网页攻击发生的次数显著上升,并在2017年创下历史新高。钓鱼网页攻击可以让诈骗方用最低的成本进行网页攻击部署,使其在短时间内进行大规模传播。为了保护互联网用户的信息安全免遭泄露,研究确定更加准确和有效的基于机器学习技术的自动网页检测方法来抵抗这种快节奏的网络攻击就显得至关重要。本文主要研究使用多来源的特征训练出能够有效检测钓鱼网页的分类模型。其中,分别从URL链接、网页内容元素和第三方网页相关信息这三个来源派生特征,对其进行特征提取、特征选择和特征重要度计算,得到基础特征。为了使分类模型表达出对网页更加丰富的细粒度的描述,引入联合特征率R(0<R<=1)对基础特征进行特征扩充和组合。在此基础上,使用多种常用的分类模型,系统地对比了利用不同维度特征训练出的分类模型在检测钓鱼网页方面的效果。首先,分别通过对各种分类模型的主要参数进行参数调整,训练出各自模型的最优参数模型,从各自最优参数模型中对比确定唯一的最优分类模型。其次,对比了基于不同联合特征率扩充所训练出的最优参数模型的分类效果。最后,将最优参数模型与已有相关研究成果进行对比,随机森林和神经网络模型检测效果优异,并且随着R的提升,分类模型对钓鱼网页的检测能力持续增强。本文还提出了一种改进的半监督学习自训练方法。该方法基于分治思想,将训练集中大规模未标记数据平均拆分为多个子数据集,依次在这些子数据集上对分类模型进行递归训练,得到最终分类模型。本文通过对比了多种分类模型在改进自训练方法中的分类效果和运行时间,与传统自训练方法相比,改进的自训练方法能够有效地检测钓鱼网页,并在保证分类效果与传统自训练方法持平的基础上,方法运行时间相比于传统自训练平均降低50%以上,实现了更优的方法时效性,为缺少大规模可靠标记数据和在线检测等场景提供了一种新的研究思路。
其他文献
基督教音乐在中国的发展历经了东西方文化间的摩擦、冲突与妥协之后,以其传播地的文化气质、时代风貌和音乐特色为主导,大量吸收当地的民族民间文化元素为我所用,形成了极具
提升高岭土的白度是扩大其应用领域,提高其附加值的重要手段。以湖南某风化型高岭土为研究对象,对高岭土还原漂白的条件进行了研究。结果表明:在液固比为5∶1,用10%的稀硫酸
自加入WTO以来,我国在国际贸易的舞台日益活跃,产业竞争力在国际市场得到了绽放。近年来我国外贸出现快速增长,跃居世界第三。在国际贸易中,我国长期处于贸易收支顺差。贸易
随着中国国际地位不断提升,对外交流程度不断加强,不仅要了解和学习西方文化,更要注重对中国文化的认同和传播。作为以培养应用型人才为目标的高职院校,加强学生的英语综合运
在顺应国家标准化改革“放开搞活企业标准”思路的指引下,立足企业标准定位与分工,根据现行和潜在的标准化法律和企业标准体系要求,借鉴服务业组织标准体系、征信业标准体系,
文章以1991--2004年长三角各个城市入境旅游人数为指标,运用σ趋同、β趋同两种方法,分析了长三角入境旅游发展的趋同情况,结果发现:①长三角入境旅游发展不同年份间变差系数、基
<正>佘礼哗,南京市江宁区水利局副局长、水政监察大队大队长。13年来,他扎根基层水行政执法工作,用满腔热血和勤恳智慧,把情、理、法有机融合,出色履行着水政监察使命,先后被
目前,在很多科学研究领域都开始应用观察法,并且取得了不错的效果;教学领域也十分广泛和普遍的应用观察法。本文主要研究了教育观察法在小学教育中的应用,希望可以提供一些有
天然气的浓燃改质燃烧是利用发动机的部分气缸运行在浓燃工况,将此改质缸的含有氢气(H2)和一氧化碳(CO)的尾气以废气再循环(EGR)的形式导入进气系统进行二次燃烧的一种新型燃烧技术
社会保障是民生之安,民生之依。随着我国社会保障事业的不断发展与完善,社会保障业务规模也随之逐步扩大。养老保险基金作为社保基金的重点部分,其特点有种类多、资金量大等,