论文部分内容阅读
近年来,微博因为交友和获得信息的便利性,逐渐成为人们广泛接受的在线社交方式之一。然而这种便利性也给垃圾用户带来了可乘之机。每天微博中都包含大量的广告微博,这些信息反复出现,难以辨别真假,严重影响了用户的用户体验,更甚者,许多虚假中奖抽奖,违规医药等微博还会骗取用户个人信息,威胁用户的健康和财产。基于特征提取的文本分类技术是常见的垃圾识别方法,特征的有效性会决定着垃圾微博的识别精度。本文以新浪微博为例,对垃圾微博检测方法进行了深入研究,具体研究内容如下:首先,包含第三方联系方式是垃圾微博的重要基本特征之一。URL是垃圾用户采用的一种常见的联系方式。许多反垃圾研究都是基于URL实现的,新浪微博也采用这种方式检测垃圾微博,因此许多垃圾用户都逐步采用了新型的联系方式,但是在以往的研究中,这些方式没有得到重视。为了提高垃圾微博的识别广度,我们不仅考虑了URL,也考虑了垃圾用户会使用的其他几种联系方式。这些联系方式包括伪装格式的URL、QQ号、微信号和电话号码。其次,针对微博文本特征的随机性,我们提出了基于相似微博聚类的垃圾微博检测方法。在新浪微博中,约有30%的微博长度不足15个字符,在这些短文本中,许多垃圾微博和正常微博看起来十分相似,难以识别。为了得到更多的受骗者,垃圾用户总是操作多个账户同时发布垃圾微博,同一条垃圾微博会反复出现,相似的文本描述和同样的联系方式也会反复被使用,而正常微博不会。而相似微博聚类能够有效聚合垃圾微博,可以克服微博文本特征的随机性和模糊性。最后在真实的新浪微博数据上进行了对比实验,分类结果证明相似微博簇的特征参与分类时,分类准确度提升了10%。最后,很多垃圾用户会对垃圾微博进行包装,采用热门新闻或网络事件填充微博。这时,文本特征是无效的,从文本上判断不出微博的垃圾属性。为此,我们引入了用户属性。微博文本包装容易,而用户的属性如注册时间,微博数目等特征是一定的,难以改变,这些属性能够辅助微博的垃圾类别判定。在此基础上,我们提出了融合多特征聚类的垃圾微博检测算法。在真实的微博数据上的实验证明,融合多特征聚类在很大程度上提高垃圾微博识别的准确度,特别是在F值上有着明显的改进。