基于URL和HTML源码的仿冒网站识别的研究与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:binics
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的诞生和普及,人们的生活方式发生了巨大的改变。网络从衣、食、住、行等各个方面给人们带来了便利,但同时,也带来了一定的安全隐患。网络用户在网站注册个人信息的同时也会有信息泄露的风险。如今,一些不法分子,利用大部分普通互联网用户对网络的不熟悉,对风险意识的淡薄等,通过仿冒一些合法的网站,迷惑用户点击和浏览,从而骗取用户的个人信息、银行卡密码等,进行一些非法的活动,给用户造成巨大的经济损失或其他方面的困扰。因此,如何通过技术手段,识别网站是否为仿冒的非法网站,在用户点击时进行提醒,以减少用户信息泄露的可能性具有重要的研究意义和现实应用价值。本文主要从怎样识别一个网站是否为仿冒网站和怎样找到一个仿冒网站所仿冒的目标网站两个方面对仿冒网站识别展开研究。在识别仿冒网站方面,从多个角度提取特征并利用多个分类器进行分类实验与对比分析,设计并实现了仿冒网站识别系统。在发现被仿冒目标网站方面,提出关联关系挖掘的算法从多个方面挖掘关联关系并设计实现了基于关联关系的被仿冒目标网站发现系统。本文的主要研究内容如下:首先,本文以URL和HTML两个层面为出发点,从构成规则、内容、关键词等多个角度提取了大量用于识别仿冒网站和合法网站的特征,并描述了这些特征的提取方法。同时,通过分析仿冒网站和合法网站在对应特征上的差异性,说明了提取到的特征的合理性。其次,本文在特征提取的基础上,通过一些特征筛选方法对特征筛选。一方面为了减少特征维度,提高模型训练速度和预测结果的准确度;另一方面,为了减少提取到的特征对数据集的依赖性。通过分析多种分类器模型的分类原理与适用场景,本文基于卷积神经网络和随机森林设计了一种新的分类器模型CNNRF。通过与随机森林、卷积神经网络、深度森林、逻辑回归等分类器模型进行实验对比,验证CNN-RF在仿冒网站识别方面的优势。然后,以CNN-RF为分类器模型进行分类实验,分析不同数量的样本、不同的特征对分类结果的影响。最后,本文提出了被仿冒目标网站发现算法并设计实现了被仿冒目标网站发现系统。根据仿冒网站是通过仿冒合法网站以达到欺骗用户的目的这一特性,从链接、关键词、网站排名、网站间内容、结构、样式上的相似性等方面挖掘仿冒网站和疑似目标网站间的关联关系,找到仿冒网站所仿冒的目标网站。通过实验表明,本文提出的识别仿冒网站的特征以及使用到的分类器模型可以有效识别网站是否为仿冒网站;实现的基于网站间的关联关系查找被仿冒目标网站的方法可以在一定程度上发现仿冒网站所仿冒的目标网站。
其他文献
我国司法实践中出现的刑事证明客观化的现象,近年来更是伴随着对刑事错案的深刻反思而得到强化。强调客观证据和必然性推论在事实认定中的作用,对保障查明事实、贯彻“疑罪从无”具有积极意义,但同时也带来了放纵犯罪和证明僵化的弊端。片面的“客观化”并不是实现发现真实目的的必然路径。刑事证明的本质是依据证据和推论获取具有高度盖然性的事实认定结论。裁判者运用整体主义解释的方法进行事实认定,需要依赖补助证据与或然性
近年来,随意倾倒未处理工业废水及农药化肥所引起的污染事故屡见不鲜,并且经常发生赤潮、绿藻等水质灾害,水质污染已经成为当今社会面临的重要问题之一。准确、全面地获取水质环境监测数据,明确水质环境质量情况和变化趋势,及时跟踪污染源变化情况并做出应对措施,实现全方位实时监测是解决这一问题的必要条件。光谱探测技术具有非接触、周期短、成本低等优势,因此水质光谱检测技术成为近年来的研究热点。光谱检测技术的核心设
随着世界各国对于海洋领域的日益重视,基于海面背景的各项研究也变得尤为重要。作为现代检测技术的重要分支,采用图像处理手段实现海面目标的检测和跟踪,可以更快速、智能地获取目标的相关信息。因为海面背景具有时变性和随机性,所以需要更先进的检测方法来提高目标检测的速度和准确度。本文主要针对海面背景下的小目标,通过图像处理方法,实现目标的检测和跟踪。本文主要研究内容如下:首先,通过无人机搭载热成像云台相机获取
近年来,互联网环境中存在着大量承载着非法政治言论、钓鱼仿冒、赌博、色情淫秽等可疑站点,它们严重危害人们的隐私财产安全和身心健康,甚至对社会稳定与安全都有严重影响。尽管公安部等网络安全部门对可疑站点一直进行着严厉打击与治理,但是不能避免可疑站点在网络环境中再次流通,导致用户可继续访问非法内容,从而持续对互联网安全造成威胁。因此研究分析可疑站点再次在网络环境中的可访问性情况显得尤为重要。本文基于客户端
超快光学是光学技术研究前沿和热点之一,无论在理论研究还是实际应用中都有很高的研究价值。而超快激光研究领域的前沿是阿秒激光技术。目前已有多种阿秒脉冲产生方案被设计出来,都需要通过高次谐波来实现。因此,深入了解高次谐波产生(High Harmonic Generation,HHG)的机制,研究不同条件对HHG造成的影响,对于超快光学的发展具有重要意义。在HHG的介质选择方面,纳米材料——特别是石墨烯,
在我国的电动二轮车事故中,创伤性脑损伤是驾驶人死亡的主要原因。创伤性脑损伤在给人们的生命安全带来极大威胁的同时,也造成了国家经济社会发展过程中极大的经济损失。因此,建立高精度的头部有限元模型对研究碰撞中的头部生物力学损伤具有重要意义。前人经过大量研究认为脑脊液为流体材料且“颅骨-脑脊液-脑”之间的接触方式为流固耦合时,模型的仿真度最高。为研究仿真时能更加真实的模拟颅骨-脑脊液-脑之间流固耦合关系的
随着光纤传感技术研究,光纤传感器在许多领域展开了应用。反应液体光学特性的关键参数之一是折射率,对检测与控制溶液浓度具有重要作用。光纤折射率(RI)传感器在生物、食品和化学工业中具有广泛的应用前景。基于光纤内马赫曾德尔干涉仪(MZI)的RI传感器已得到广泛研究,但加工MZI的方法通常需要复杂的制造工艺或相对昂贵。近年来,基于芯径不匹配的MZI由于易于制造和结构坚固而受到更多关注,如夹在两根薄芯光纤(
陆地上的资源随着人类的发展变得越来越少,越来越难以满足人类高速发展的需求,而地球作为71%的面积为海洋的“水球”,拥有充足的海洋资源。科技的快速发展使人类能够依靠科技手段去勘探和开采海洋资源,有效的降低了海洋环境的复杂性和危险性对人类造成的影响。近年来,水下机器人作为人类勘探海洋资源的重要工具得以高速发展,与水下机器人共生的双目立体视觉系统也得到了发展。水下深度信息恢复能为水下机器人导航、避障和自
当前市场上只有具备某些特定功能的专用无人机地面站系统,没有完善的调试和图形化编程航线规划教学功能。在此背景下,设计一个满足调试和图形化编程航线规划教学的多旋翼无人机地面站系统成为急需研究解决的一个课题。本文设计并实现具有调试功能的多旋翼无人机地面站系统,构建了数据接收、数据处理、控制逻辑、界面操作四个层面的架构模型,提出了以无人机状态信息图形化控件显示、多个电调转速设置、传感器校准和航线规划图形化
随着时代变迁,教育观念不断变革,幼小衔接的价值取向和内容也随之变化,虽然教师已经对幼小衔接过程中关注幼儿学习愿望、情感、兴趣和习惯达成共识,但是在行为上却仍会不自觉地把知识、技能作为幼小衔接的内容。家长们更是担心幼儿进入小学之前的知识储备不足,在观念与实践中存在落差,对幼儿和幼儿园的期望不尽合理。依托科研课题引领,北京市大兴区第二幼儿园通过“小学—幼儿园—家庭”的多方互动,在遵循幼儿身心发展
期刊