论文部分内容阅读
研究一种发现水帖的分类算法.该方法利用SimHash方法将发帖重复当成类似网页去重的问题处理,发帖内容的重复度和其他特征,如发帖的密集型、帐号名称的相似性,所使用的客户端等特征将用于水帖与正常发帖的分类.该文利用新浪微博API下载多个汽车营销账号下的交互数据作为实验数据,并使用SVM作为分类器.实验结果表明,该方法能够较好地发现那些伪装性非常好的水军所发布的水帖.