基于改进TCD图像检索和分类的钓鱼检测模型的研究

来源 :中国矿业大学 | 被引量 : 0次 | 上传用户:xiyufeike
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
钓鱼网站检测已经形成钓鱼攻击和钓鱼检测相互博弈的局面。钓鱼检测的方向和技术因为钓鱼攻击技术的不断升级,需要寻求新的角度。在特征计算方面,钓鱼网站检测方法计算钓鱼网站与单一疑似目标网页的相似性,这一特点导致判断钓鱼网站的条件过于简单;在网页特征提取方面,钓鱼网站的检测不仅缺乏对网页和网页特征之间独立性的保证,而且特征提取也只是以网页本身为主。这两方面都造成钓鱼检测技术易于被反检测,从而降低了检测的效率和准确率。因此从基于人类视觉行为降低网页和网页特征的相关度的角度和从复杂化特征计算的角度,针对反检测展开对钓鱼网站检测的研究,主要内容如下:(1)提出基于改进TCD特征空间转换的钓鱼网站检测算法。对能够表达网页外部特征的基元相关性算子(Texton Correlation Descriptor,TCD)进行改进,使其更能契合钓鱼检测对特征的要求。首先改进基元相关性算子中底层纹理特征提取方法;其次提出结合基于位置加权的欧式距离和双十字窗口选择邻域的方法,改进特征相关性统计;然后基于空间关系将图像化网页的集合,映射到新的特征空间中,分离网页和网页特征之间的相关度从而达到反检测目的;最后利用大量图像化网页之间的相似关系进一步改进TCD算子。实验表明,将改进的TCD算子应用到钓鱼网站识别中,具有令人满意的稳定性和精确度。(2)提出基于结构化文档模型的钓鱼网站检测算法。利用人类的视觉行为,网页内部代码特征与网页布局的关系,提出基于网页的主视觉区域的结构化文档DMVA(Document Based on Main Visual Area)模型检测钓鱼网站。首先提出子间归并算法(Merge Algorithm Between Child Nodes,MABC)生成网页的视觉分块和分层DOM树;其次结合用户的视觉行为和分层DOM树的分层结构,提取网页的主视觉区域;然后获取网页的分层主视觉区域中的文本信息,进而构造网页的DMVA对网页重构,降低网页和网页特征的相关度;最后提出相关网站集,计算待测网站DMVA和相关网站集中网页的DMVA的相似性,检测钓鱼网站。实验证明,基于DMVA模型的钓鱼网站检测算法具有较好检测准确度。(3)提出基于改进TCD图像检索和分类的钓鱼检测模型。结合TCD算子表达网页外部特征的优势和DMVA文档包含网页内部特征的优势,首先将网页图像化;其次基于DMVA模型构造包含视觉信息的视觉分层TCD算子;然后构造TCD-PLSA四层概率潜在语义模型对网页分类;最终在相应分类中通过网页检索和特征转换,计算网页之间的相似性,判断待检测网站是否是钓鱼网站。TCD-PLSA模型的离线训练部分涉及的数据规模大,采用Map Reduce对其进行并行化设计。实验证明基于改进TCD图像检索与分类的钓鱼检测模型具有良好的稳定性和钓鱼检测准确度。
其他文献
【研究背景】人巨细胞病毒(Human cytomegalovirus,HCMV)是一种β疱疹病毒,在围生期感染率高,因新生儿免疫发育不完全,HCMV感染能导致多种先天性疾病,例如神经系统疾病、视网
帕金森病(PD)是第二大常见的神经退行性疾病,以静止性震颤、肌肉强直、运动迟缓、姿势,步态异常为临床表现,其病理特征主要是黑质(Substantia nigra,SN)多巴胺能神经元的缺失
科尔沁地区是世界上中国蒙古族人最密集、且蒙古族传统音乐蕴藏最为丰富、表现形式最为多样的地区之一,其中科尔沁短调民歌是蒙古族传统音乐的重要组成部分,广泛流传于科尔沁
目的:探讨血管内超声(Intravascular Ultrasound,IVUS)在冠脉左主干(Left main coronary artery,LMCA)病变患者经皮冠脉介入术中(Percutaneous coronary intervention,PCI)的
日益严格的排放法规对柴油机后处理装置的要求越来越高,相比于愈发复杂和昂贵的后处理装置,柴油机低温预混合燃烧技术能从根本上改善柴油机缸内燃烧情况,提高能源使用效率,同
目的正己烷作为现代工业常用的化学溶剂,主要运用于制鞋、印刷、油漆和电子行业。由于正己烷的急性毒性较低,在职业工作中,正己烷急性中毒案例并不多见。正己烷职业中毒多是
超纯铁素体不锈钢因其极低的碳、氮含量(w[C+N]≤150×10-6),并添加钛、铌等稳定化元素,而获得优越的耐蚀性、加工性和焊接性;其作为节镍经济型不锈钢,被广泛运用于轻工、家
软件定义网络(Software Defined Networks,简称为SDN)通过其核心技术Openflow将网络的控制平面从数据平面中分离后,集中式的控制器掌握全局网络控制功能。在网络规模较大的广域网中,现有的单控制器方案存在低带宽和高时延等问题,因此,多控制器部署问题应运而生,该问题的核心为确定网络所需控制器数目以及控制器部署位置。研究表明,合理的控制器数目以及控制器部署位置可以保证控制器间
目的:研究氧化应激在阻塞性睡眠呼吸暂停低通气综合征(Obstructive sleep apnea hypopnea syndrome.OSAHS)影响脑小血管病(cerebral small vessel disease.CSVD)认知障碍中的
背景:元素是自然界中任何物质包括生物体在内的基本组成单位,对生物的一切生命活动起着至关重要的作用。微量元素在机体内的吸收、转运、分布和排泄与机体健康状态密切相关。