论文部分内容阅读
移动互联网技术的进步推动了社交网络的蓬勃发展,与此同时,社交网络成为垃圾用户的活跃场所。垃圾用户向正常用户大量发送接受者未要求传送的信息,严重威胁了正常用户的信息安全与社交网络的信用体系。在此背景下,社交网络垃圾用户检测技术成为研究热点,其在电商推荐、信息检索、网络安全等领域有着十分重要的应用价值。目前,社交网络垃圾用户检测的相关研究已得到广泛应用,但是仍然存在以下局限性:(1)虽然用户个体行为是复杂的、随机的,但是群体用户行为在整体上却表现出一定的周期性,而当前基于时间特征的垃圾用户活跃时间检测算法缺乏考虑群体用户行为在整体上表现出的周期性,造成正常时间被误定为活跃时间的情况时有发生。(2)当前基于网络拓扑特征的垃圾用户检测算法仅利用用户在网络中的局部位置信息,缺乏对全局位置信息的深入挖掘。(3)当前基于文本特征的垃圾信息检测算法普遍面临文本中蕴含大量噪音单词的问题,同时其提取的语义特征表示过于稀疏。针对以上问题,本文提出两阶段的检测流程。第一阶段,针对垃圾用户的活跃时间集中的特点,利用时间特征检测垃圾用户活跃时间。第二阶段,在检测出的垃圾用户活跃时间内,针对垃圾用户的拓扑结构异常以及与文本内容无关的特点,利用拓扑特征与文本特征综合检测垃圾用户。主要内容如下:(1)提出一种基于泊松过程的垃圾用户活跃时间检测算法。首先将数据集按照一定时间粒度切割,并计算多粒度网络结构特征指标的序列;其次对经典泊松过程进行周期性融入、连续性扩展与综合性检测等三个方面的应用改进,提出基于泊松过程的垃圾用户活跃时间检测算法。实验结果表明,该算法具有较好的检测效果,拥有较好的网络结构特征指标组合,有助于未来开展进一步的检测工作。(2)提出一种基于图卷积网络的垃圾用户检测算法。首先借助网络表示学习算法提取用户在网络中的局部位置信息;其次利用直交多项式逼近谱域中的卷积操作,提出基于直交多项式的图卷积网络,深入挖掘用户在网络中的全局位置信息,并利用该网络开展垃圾用户检测工作。实验结果表明,该算法具有较高的检测准确率与效率,适用于大规模数据集与含有稀疏标签的数据集。(3)提出一种基于注意力机制的垃圾信息检测算法。首先在原始CNN模型基础上增加过滤层,并且在过滤层融合关键词提取的思想,设计基于朴素贝叶斯权重技术的注意力机制。通过降低文本中噪音单词含量,解决噪音单词问题并筛选出具有检测效果的单词候选集合;其次,提出基于注意力机制的池化策略,通过注意力机制给具有检测效果的单词赋予较高的权重,有效提取文本的特征表示,缓解稀疏表示问题。实验结果表明,算法具有较高的检测准确率,并且具有较高的鲁棒性。