论文部分内容阅读
随着网络技术的快速发展,越来越多的人际交流通过互联网完成。人们通过微信、邮件、网络电话等进行交流的同时,也在这些消息载体上留下了大量的记录,其中隐藏着非常具有价值的信息,如何挖掘出这些隐藏的信息成为社交网络研究领域重要课题。特别当网络是一个犯罪团伙的信息交流网时,这种研究往往可以标记出一个犯罪团伙的重要成员或者重要头目,这对于案件侦破和打击犯罪具有重要意义,吸引着包括公安刑侦领域、社会心理学领域、计算机取证领域的许多学者对此不懈研究。利用社交网络进行的计算机取证分析已经成为社交网络研究领域的一个重要方向。近年来,针对犯罪社交网络的取证分析取得了一定的成功,能够较准确的分析出某个犯罪网络的层次结构和重要成员,但也存在着明显的局限性:只能分析出存在直接相邻成员之间的关系,对具有间接关系的成员之间,难以准确衡量他们之间的亲密程度。因此,针对社交网络取证领域中成员间接关系难以衡量的问题,本文将网络中每一个成员表示成一个结点,使用神经网络语言概率模型对结点进行网络表示学习(Network Representation Learning,NRL),将结点转成结点向量的形式,通过采样和编码将结点附近的拓扑信息嵌入到向量中,利用向量所隐藏的丰富含义解决了不相邻成员间关系衡量问题,实现了更丰富的语义表达。同时本文基于向量提出了一个新的寻找犯罪集团‘犯罪头目’的分析取证方法:向量证据分析模型(Vector Forensic Analysis Model,VFAM)。主要工作和创新点如下:(1)利用网络表示学习后的向量克服了不相邻结点间的关系难以衡量问题。本文利用向量蕴含的丰富语义信息来表示结点间关系,并深入研究了几种典型的神经语言概率模型,选择网络表示学习效果较好的node2vec方法将结点数据预处理成结点向量。将数据预处理成向量具有两个优势:一方面,在向量化过程中,node2vec中会根据与其他结点的亲密程度产生不同向量值,两个结点之间关系越疏远、得到的向量值距离就越大,反之得到的向量值距离越小,因此可直接使用向量距离表征不相邻结点之间的关系。另一方面,向量具有良好的数学计算性,方便进行后续建模和计算。(2)改进了网络表示学习算法node2vec的梯度更新过程。Node2vec在训练结点向量时,对非叶子结点按照‘均等’原则构建哈夫曼树作为加速更新架构,并使用向量叠加和作为投影层。但node2vec在利用哈夫曼树进行梯度更新时,最终得到的梯度上升值并非‘均等’的贡献到每一个非叶子结点上,这样可能会使得叶子结点更新值不准确,且更新过程不符合投影层构建逻辑。VFAM模型针对这一问题做出改进,让迭代每一步的梯度值平均贡献到所有非叶子结点上,使算法更准确且符合算法构建逻辑。(3)提出了基于向量的犯罪团伙重要成员找寻算法。本文给出了基于结点向量的社交网络取证分析工具VFAM的层次架构和数学公式。VFAM将待取证分析的社交网络分成三层结构,通过聚类算法和权值计算,找寻每一层的重要成员并分配给这些成员不同权值,权值越高代表该成员结点越重要。VFAM通过计算重要成员和其他结点的向量距离和权值期望,最终找到整个网络的领导成员。对于由犯罪分子构成的犯罪社交网络,这个结果往往代表着该犯罪团伙大头目或大Boss。(4)通过实验评估本文提出的取证方案的正确率。本文选择安然公司邮件作为实验数据集合,使用VFAM分析邮件数据寻找安然犯罪集团领导人,并将寻找结果和经典取证分析工具CrimeNet Explorer、LogAnalysis做对比。实验结果证明,VFAM模型在寻找犯罪团伙领导人方面具有更好的取证分析能力,在多个正确率指标上具有优势。