论文部分内容阅读
在互联网发展如此迅速的时代,社交网络已经成为人们生活中进行沟通和互动的重要途径,因此社交网络中囊括了大量有用的信息。利用数据挖掘的手段对社交网络人物行为进行分析,将潜藏在用户数据背后无法直接获取的信息提取出来,将对社交网络的发展甚至互联网的发展有重要意义。然而在社交网络被广泛使用的同时,垃圾账号的泛滥也成为一个备受学者关注和亟待解决的问题。由于垃圾账号对自然用户的模仿能力增强,想要通过对用户行为分析来鉴别更加困难,尤其是用户行为特征的选择和提取问题是研究的热点及难点。本文通过以Twitter这样广受欢迎的社交媒体为例,提出了两种新的社交网络人物行为的分析方法,并从有监督学习的分类算法和半监督学习的聚类算法两个思路将方法应用在垃圾账号识别的问题上。本文主要从以下几个方面进行研究和创新:(1)本文提出了一种基于局部网络特性分析的社交网络垃圾账号识别方法。以Twitter为实验案例,采集用户之间关注行为的关系数据,通过构建自然用户与待测用户之间的局部网络关系图,包含自然用户指向待测用户和待测用户指向自然用户两个方向的子图,从子图及子图之间对比中提取可以表现待测用户为垃圾账号或自然用户差异的特征量,得到样本数据的特征向量,应用机器学习中有监督学习分类算法对分类模型进行训练,并采用五折交叉验证的方式对训练得到的模型进行性能评估和验证;(2)本文提出了一种基于全局行为分析的社交网络垃圾账号识别方法。仍以Twitter为实验案例,将已构建的用户之间的局部网络关系子图集中放入一个大图中,形成包含所有样本数据之间关联关系的全局网络,根据机器学习中半监督学习的聚类思路,从全局网络中提取能表现网络结构和用户关联性的特征或相似矩阵,再基于改进的谱聚类算法,利用已标记用户的分类属性对相似度矩阵进行优化,最终将全局网络中的用户划分到两个子集中,利用聚类算法适用的性能指标对实验结果进行了验证和评估。