基于网络表示学习的社交网络取证分析建模研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:seracn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的快速发展,越来越多的人际交流通过互联网完成。人们通过微信、邮件、网络电话等进行交流的同时,也在这些消息载体上留下了大量的记录,其中隐藏着非常具有价值的信息,如何挖掘出这些隐藏的信息成为社交网络研究领域重要课题。特别当网络是一个犯罪团伙的信息交流网时,这种研究往往可以标记出一个犯罪团伙的重要成员或者重要头目,这对于案件侦破和打击犯罪具有重要意义,吸引着包括公安刑侦领域、社会心理学领域、计算机取证领域的许多学者对此不懈研究。利用社交网络进行的计算机取证分析已经成为社交网络研究领域的一个重要方向。近年来,针对犯罪社交网络的取证分析取得了一定的成功,能够较准确的分析出某个犯罪网络的层次结构和重要成员,但也存在着明显的局限性:只能分析出存在直接相邻成员之间的关系,对具有间接关系的成员之间,难以准确衡量他们之间的亲密程度。因此,针对社交网络取证领域中成员间接关系难以衡量的问题,本文将网络中每一个成员表示成一个结点,使用神经网络语言概率模型对结点进行网络表示学习(Network Representation Learning,NRL),将结点转成结点向量的形式,通过采样和编码将结点附近的拓扑信息嵌入到向量中,利用向量所隐藏的丰富含义解决了不相邻成员间关系衡量问题,实现了更丰富的语义表达。同时本文基于向量提出了一个新的寻找犯罪集团‘犯罪头目’的分析取证方法:向量证据分析模型(Vector Forensic Analysis Model,VFAM)。主要工作和创新点如下:(1)利用网络表示学习后的向量克服了不相邻结点间的关系难以衡量问题。本文利用向量蕴含的丰富语义信息来表示结点间关系,并深入研究了几种典型的神经语言概率模型,选择网络表示学习效果较好的node2vec方法将结点数据预处理成结点向量。将数据预处理成向量具有两个优势:一方面,在向量化过程中,node2vec中会根据与其他结点的亲密程度产生不同向量值,两个结点之间关系越疏远、得到的向量值距离就越大,反之得到的向量值距离越小,因此可直接使用向量距离表征不相邻结点之间的关系。另一方面,向量具有良好的数学计算性,方便进行后续建模和计算。(2)改进了网络表示学习算法node2vec的梯度更新过程。Node2vec在训练结点向量时,对非叶子结点按照‘均等’原则构建哈夫曼树作为加速更新架构,并使用向量叠加和作为投影层。但node2vec在利用哈夫曼树进行梯度更新时,最终得到的梯度上升值并非‘均等’的贡献到每一个非叶子结点上,这样可能会使得叶子结点更新值不准确,且更新过程不符合投影层构建逻辑。VFAM模型针对这一问题做出改进,让迭代每一步的梯度值平均贡献到所有非叶子结点上,使算法更准确且符合算法构建逻辑。(3)提出了基于向量的犯罪团伙重要成员找寻算法。本文给出了基于结点向量的社交网络取证分析工具VFAM的层次架构和数学公式。VFAM将待取证分析的社交网络分成三层结构,通过聚类算法和权值计算,找寻每一层的重要成员并分配给这些成员不同权值,权值越高代表该成员结点越重要。VFAM通过计算重要成员和其他结点的向量距离和权值期望,最终找到整个网络的领导成员。对于由犯罪分子构成的犯罪社交网络,这个结果往往代表着该犯罪团伙大头目或大Boss。(4)通过实验评估本文提出的取证方案的正确率。本文选择安然公司邮件作为实验数据集合,使用VFAM分析邮件数据寻找安然犯罪集团领导人,并将寻找结果和经典取证分析工具CrimeNet Explorer、LogAnalysis做对比。实验结果证明,VFAM模型在寻找犯罪团伙领导人方面具有更好的取证分析能力,在多个正确率指标上具有优势。
其他文献
基于响应曲面优化法,采用中心组合设计,系统研究了配煤量、矿粉粒度、煤粉粒度等工艺参数及其交互作用对高铁铝土矿热压块抗压强度的影响,并建立了相关的数学预测模型.研究表
马鲛鱼俗称鲅鱼,是中国最重要的经济鱼类之一,以马鲛鱼为原料制出的鱼糜味道佳,口感好,深受广大消费者喜爱。目前,市面上鱼糜主要是以冷冻品的形式进行销售,冷冻过程会改变鱼糜内部的水分排布,进而对其品质产生影响。因此,研究鱼糜在不同保水剂的作用下,不同贮藏时间以及反复冻融过程中的品质变化显得尤为重要。但是针对鱼糜水分状态的传统检测方法存在许多的不足,如:浪费时间成本、操作步骤繁琐、消耗大量原料试剂、污染
国际金融危机对全球经济的冲击仍在持续,对全球经济增长、国际金融市场、全球版图和治理模式将继续产生深远影响。在此背景下,本文分析了危机后全球经济增长率下滑的成因、国
长沙浏阳河人行景观桥(汉桥)桥梁平面为月牙形,来源于长沙民谣"月亮粑粑"。平面弧形半径小,跨度大,造型优美施工难度大。根据现场实际条件和结构特点,采取现场分段吊装的方法
热力学分析法是从理论上对物理—化学现象进行分析研究的最有效的方法之一,它广泛地应用于各种化学热处理工艺。热力学分析既能用来建立物质向被处理表面迁移的过程的模型,又
通过外业样地的群落调查,结合前人的研究成果,对武夷山典型常绿阔叶林群落的物种组成、区系特征、数量特征、结构特征、空间分布、种间联结、物种多样性等方面进行了研究,主
为探讨牛磺鹅去氧胆酸(taurochenodeoxycholic acid,TCDCA)对热应激条件下AA肉鸡、海兰褐仔鸡及昆明种小白鼠的抗热应激作用,试验检测了TCDCA对热应激条件下AA肉鸡死亡率、海
老舍独特的戏剧理论极具研究价值。在抗战时期,老舍对自己的艺术创作进行调整,开始了戏剧创作。老舍在艺术创作上一向不愿意摩仿他人,反对艺术家凡事以先前的模式为规则而消失了
在砂层修筑地下工程时,由于其特殊的工程性质,在施工过程中极易造成围岩失稳、坍塌等工程事故。本文以石家庄地铁建设项目为背景,对石家庄地铁工程涉及到的主要砂层,通过资料
风积沙是一种广泛存在于我国西北的松散沙体,粘聚力低、保水性差,属于级配不良的含细粒土砂。隧道开挖过程中极易出现衬砌背后脱空、流沙甚至掌子面坍塌等工程灾害。极其有限的风积沙隧道工程中采用了改进台阶法穿越了该地层,但是如何保证隧道安全、快速地穿越风积沙地层,例如如何定量确定台阶长度以及台阶高度还悬而未决。更深入地,施工工法的选择对于风积沙隧道掌子面失稳特征以及围岩稳定性的影响规律研究还不成体系。针对以