HTTPS流量在线识别方法设计和实现

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:ARCHERY6805068
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
流量识别是指利用相关技术手段自动化将网络流量按照预先设定的标准划分为不同种类的分类技术。该技术被广泛应用于合法监听、网络调度、异常检测和套餐设计等众多领域,方便网络提供商指定策略。目前网络环境为了保证用户数据安全,正逐步使用HTTPS协议代替原有HTTP协议作为分发web内容的主要协议,因此研究加密流量识别技术有助于运营商更为全面地了解真实网络环境并制定相应策略。HTTPS流量识别(分类)技术的主要难点在于识别目标是基于流量负载类型进行细分,一般的基于数据包包头和数据包负载关键字的识别技术无法适用,基于机器学习识别方法虽然能够满足识别需求,但可供借鉴的经验较少,且模型训练所需数据集成为制约实验开展的重要因素;同时在线识别需要综合考虑识别办法准确度和识别效率两个指标,因为对数据包数量需求的差异性,一般模型往往无法兼顾。针对上述问题,本文的主要工作和创新点如下:  1.带标识HTTPS流量样本自动捕捉办法。针对目前公开且符合本次实验需求HTTPS样本较为缺乏的情况,文章设计并实现了能够自动捕捉加密流量并以其负载类型作为样本标记的办法。实验从“先记录、再捕捉、后标记”的实验思路出发,利用资源与URL之间的对应关系,首先通过解析HTML文档或者HTTP数据包包头的形式获得URL指向资源的类型,而后通过加密访问的方式捕捉访问过程并将此标记此作为捕捉后样本的标识。方案最终将捕捉的样本数据基于负载类型的不同分为文本、语音、图片和视频四个种类,为识别模型的训练和优化提供了数据支撑。  2.构建兼顾准确率和效率识别模型。实验设计方案在识别特定数据流时需要经历特征计算和结果判别两个过程,识别模型在设计时将两个步骤抽象成两个低耦合模块。通过调整判别模块中决策树模型的参数和特征,实验的识别准确度最高达到95.3%。此外,实验数据说明特征计算是造成效率瓶颈的主要因素,通过分析实例样本种类在特征空间的稀疏属性,实验提出特征偏差容错概念,依靠该概念设计算法找出各个种类在特征空间的边缘阈值,将实例与特征向量的对应关系转变为对特征空间区域的映射关系,通过这种办法,模型可以在现有研究基础上节约20%的计算资源,能够比一般模型更好地面对高并发网络环境。  文章最后对模型面对高并发环境的实际性能做了测试。发现经过调整的识别模型能够以较高的性能表现满足一般网络的识别需求。
其他文献
方向关系经常作为空间数据库查询的选取条件。基于观察者方位的方向关系在多媒体数据库、人工智能、虚拟现实、城市导游等领域都起着非常重要的作用,但是基于观察者方位的方
复杂命名实体指那些指代对象具体、字面特征不明显、与人们日常生活和休闲娱乐活动密切相关的实体名,比如电影名、餐馆名、大学名等等。复杂命名实体的识别不仅能够形成一种重
以数据为中心是业务流程管理领域中新的发展方向。业务流程中的业务数据称为Artifact。ArtiFlow是一种以Artifact为中心的业务流程逻辑模型。在面向Artifact业务流程管理问题
中科院等离子所超导电工中心基于ITER项目,需要对超导导体样品进行性能测试,本文研制了一套数据采集系统用于ITER超导磁体测试实验,负责电压、电流、温度等物理量的测量。  
随着信息化建设的不断发展,高校中各个部门也使用越来越多的信息系统进行办公。然而由于这些应用系统都是在不同时期采用不同技术开发的,系统间缺乏足够的信息交互,使得系统的信
网络链路数据是所有网络研究的基础,通过采集和分析互联网数据,可以了解网络运行状态、网络负载情况、网络安全状况以及用户行为模式等信息。随着主干网链路速率由1000Mbps提升
高校办公自动化(OA)系统是服务于全校各单位的网上综合办公平台,是数字校园应用平台最核心的内容,是实现学校电子校务、数字化管理的基础,并为学校其它应用系统提供数据接口,是学校
医学影像算法平台(通常也称作为算法工具包Algorithm Toolkit)的研发是医学影像领域的一个研究热点。目前国内外已经有了许多成熟的医学影像算法平台,包括VTK、ITK和MIITK等。
学位
访问控制是网络安全防范和保护的主要策略,它的主要任务是保证网络资源不被非法使用和访问。随着Intemet和信息化技术的发展,企业信息系统得到了更多的关注和应用,传统的访问控
随着Internet上异构应用系统的大量增加和SOA技术的空前发展,Web服务技术变得越来越重要,已经成为了学术界和工业界关注的热点。在Web服务技术中,服务发现为Web服务消费者调用We