论文部分内容阅读
近些年来,随着信息技术的飞速进步与发展,网络安全技术不断演化,无论是以5G通讯,物联网等新型网络形式的出现,还是以在线社交网络等为代表的新型服务模式的出现,都不断呈现出开放性、异构性、移动性和可信性的特点,这些服务方便了人们的生活,但是由于网络的匿名性,人们同时也遭受着非法网络渗透等带来的巨大损失和伤害。针对日益庞大的网络用户的情报数据,如何对这些情报进行合理的分析和研究将成为新时代下社会信任体系与主动安全防御的重中之重。现今的互联网环境下,人们对用户实体的情报数据的主要来源是开放的网络环境,但是网络环境中的情报数据具有数据质量低,同时具有数据规模大,关联关系复杂等特点,如何有效的对这些情报数据进行高效并且合理的研究与利用,是解决网络空间环境下,对网络实体的情报进行可信评估的关键。因此,本文主要针对开放的网络环境中的情报数据的可信评估问题进行研究,主要的工作任务如下:(1)针对大规模网络环境下,情报数据规模大、关联关系复杂的特点,本文提出了—种基于知识抽取和融合算法的海量数据知识图谱构建的方法,以此来作为海量情报数据存储的主要形式。该方法利用网络空间中情报数据的结构化和非结构化特性,对原始的情报数据进行实体、属性和关系的抽取;考虑抽取得到的实体、属性和关系信息之间存在重复、别名问题,再利用知识融合的技术对抽取得到的实体、属性和关系进行加工、整合、消除歧义,得到—系列基于事实表达的情报知识图谱。(2)针对网络环境中用户情报数据中质量低和虚假数据的问题,本文提出了—种基于知识表示和神经网络算法的情报数据的可信评估模型。该模型在情报知识图谱的数据存储形式上,利用知识表示TransE(Translating Embeddings)算法将情报知识图谱中的实体、属性和关系等节点信息映射到连续的低维向量空间,在这个过程中,为了计算具有多级链接关系的两个节点之间的聚合关系,本文提出—种基于循环神经网络(Recurrent Neural Network,RNN)的链接关系聚合算法来计算得到两个节点之间单条路径的聚合链接关系,然后通过路径可靠性算法(Path Reliability Measuring Algorithm,PRM)对两节点之间存在的多条关系路径进行链接关系的加权计算,实验结果表明,基于上述的情报可信评估模型,在开源的大规模知识库Freebase数据集上,当训练集数量达到300000时,准确度达到了91.67%;并且在基于RNN的链接关系聚合算法下,与传统的基于四则运算的算法进行对比发现,随着训练集规模的增大,RNN的性能优势远远大于基于传统的四则运算算法。(3)针对现实网络环境中的用户可信评估的需求,本文基于开放的网络环境,设计并且实现了—套面向人物的情报可信分析系统。该系统分为情报数据采集与解析模块、情报知识图谱构建模块、情报可信分析模块以及情报数据可视化模块。其中情报数据采集模块利用网络爬虫从网络中获取人物情报数据并进行初步的解析;情报知识图谱构建模块利用获取到的经过初步解析的情报数据,利用知识图谱的构建方法,构建高质量的情报知识图谱;情报可信分析模块将利用上述路径聚合算法和路径可靠性算法对情报进行可信关系的可信评估;最后,系统提供可视化平台对构建的用户情报知识图谱以及可信分析的结果进行可视化展示。