面向高速图流数据中的超点检测和节点相似度估算

来源 :东南大学 | 被引量 : 0次 | 上传用户:javaer0128
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图作为一种可以描述实体间复杂关系的数据结构,在网络异常检测、社交网络分析、道路交通预测等领域都有着广泛应用。传统的批处理方法需要把整个数据结构加载到内存中,这对于日益增长的大规模图数据显然不适用。而流处理只需要有限的内存即可实现对大数据进行实时在线处理,因此面向图流数据的相关算法研究具有重要意义。图流数据中的超点是指图中度大于一定阈值的节点,图中的超点往往具有特别的含义,在网络流量图中可能表示服务器、发起端口扫描的攻击者或者是遭受分布式拒绝服务攻击的主机。对图流数据中的节点Jaccard相似度进行估算,可以用于检测网络节点连接状态的相似性,对网络攻击主机进行同源性分析。因此图流数据中的超点检测和节点相似度估算对于网络安全有重要的研究价值。然而现有的超点检测算法要想达到较高的精度,其占用的内存将会过大,不利于在内存有限的设备上部署;现有的Jaccard相似度估算算法主要是对静态集合以及包含元素增添的数据流的集合的相似度估算,对于有元素删除的完全动态变化的图流数据却无能为力。针对上述问题,本文利用基于内存共享的思想对Hyper Log Log进行改进的算法对图流数据中的超点进行检测,在保证估算精度的前提下,降低了算法的内存消耗;本文还提出一种对图流数据中的节点Jaccard相似度进行估算的算法,可以处理图流元素中元素的删除,同时提高了估算精度。本文的主要贡献如下:(1)对基数估算算法以及超点检测算法进行研究,利用基于寄存器共享的思想对Hyper Log Log进行改进的VHLL(Virtual Hyper Log Log)算法进行超点检测,其内存消耗只有当前算法的1/6。VHLL算法在更新阶段把所有元素随机映射到一个寄存器数组中,在估算阶段从公共的寄存器数组中恢复出一个Hyper Log Log估算器,对所有节点的连接数进行估算,从中找到超过连接数阈值的节点。本文还通过理论分析得出了VHLL算法进行超点检测的估算偏差和方差。(2)对现有的Jaccard相似度估算算法进行研究,分析了相关算法的优缺点,基于Odd Sketch算法提出一种分多层抽样的Odd Sketch算法MROS(Multi-resolution Odd Sketch)。MROS算法通过哈希函数把图流元素映射到相应的比特位,如果出现删除的元素则把该元素对应的比特位进行翻转从而实现元素的删除。MROS分层抽样的思想使得每一层Odd Sketch对于节点度在一定范围内的估算都较为准确,提高了节点Jaccard相似度估算的整体精度。本文通过理论分析证明了MROS估算是无偏估计,给出了估算方差的上界。(3)通过实验对上述改进算法进行评估分析,并且与现有的超点检测算法和Jaccard相似度估算算法进行对比,通过真实数据集验证了本文算法的优越性。同时还基于软件定义网络的思想搭建了面向数据面编程的实验平台,通过Mininet构建虚拟网络拓扑,在实验平台上实现了面向高速图流数据中的超点检测和节点相似度估算算法。
其他文献
学位
雄烯二酮是甾体激素类药物的重要中间体,由于其较强的疏水性,目前多采用大豆油和水两相发酵系统以微生物转化植物甾醇而得,存在提取率较低的问题,致使大量的雄烯二酮残留于废母液当中。本研究探索了一条从工业废母液中回收雄烯二酮的新工艺,主要研究了有机溶剂萃取、皂化除油、复合溶剂除杂等工艺条件,并利用液相色谱-质谱联用技术,结合生物转化途径,对废母液中主要杂质的结构进行了鉴定,结论如下:(1)本文首先测定了雄
学位
学位
学位
目的:基于炎症与抑郁症的关联及逍遥散抗抑郁作用的研究基础,本研究采用LPS诱导的抑郁样小鼠模型,探究逍遥散乙酸乙酯部位对模型小鼠神经炎症的影响及海马神经元的保护作用机制。方法:C57BL/6J雄性小鼠按体质量分层随机分为正常对照组、模型对照组、盐酸氟西汀13 mg/kg组、逍遥散水煎液40 g/kg组、逍遥散乙酸乙酯部位0.23、0.46 g/kg组,连续给药15 d,在给药第12 d~14 d,
学位
外缘翻边是钣金加工过程中的常见塑性变形工艺,利用数控渐进成形技术可以快速加工出所需尺寸的翻边工件。渐进成形外缘翻边过程中的成形规律研究,对于推动该工艺在实际生产中的使用具有重要的指导意义。本文基于DYNAFORM有限元分析软件,构建1060铝数控渐进成形外缘翻边模型,通过数值模拟与实体实验相结合的研究方法,探究不同直径和不同厚度的金属板料在渐进成形外缘翻边过程中的成形规律。探讨了工具头直径、加工路
帕隆藏布江位于喜马拉雅东构造节北东侧,区域构造活动强烈,在来自印度洋湿润西南季风的影响下,降雨量大,广泛发育海洋性冰川,以及由降雨和冰川共同作用下的泥石流活动。前人研究主要集中于古冰川活动时间、范围,国道318沿线泥石流成因危害及崩塌、滑坡等灾害方面,对第四纪基础地质方面的调查还不充分。本文采用野外调查工作、物探技术、钻探技术、无人机航拍技术和遥感解译等方法,结合前人第四纪调查资料,调查分析了藏东
钢筋混凝土构件的抗剪性能研究是混凝土结构基本理论中的经典问题之一。由于受剪破坏的影响因素众多,破坏形态复杂,目前对混凝土受剪机理的认识还不足,至今未能建立一套较完整的理论体系。在计算梁的抗剪承载力时,纵向钢筋的销栓作用通常被忽略或计入混凝土的抗剪贡献中,至今没有销栓作用的抗剪定量分析。钢筋混凝土梁的抗剪破坏通常属于脆性破坏,失效前缺乏明显预兆,容易导致灾难性后果。高延性纤维增强水泥基复合材料(EC