论文部分内容阅读
现如今,随着Web2.0的发展,社交网络在人们的生活中扮演了越来越重要的角色,如今主流的社交网络平台有新浪微博、百度知道、微信、QQ、一直播、知乎、豆瓣等,同时,随着手机等通讯工具的普及,为人们随时随地通过网络进行网上阅览、分享信息、互动提供了便利。然而,正是这种便利性,催生了一大批垃圾用户,这些用户在平台上发布恶意链接、推广虚假广告、恣意中伤他人、传播各类谣言等等,严重影响了用户体验,给人们的生活带来了困扰,其消极影响愈加显著。因此,如何识别并检测这些恶意用户、屏蔽垃圾内容,成为当下研究的热点问题。本文选取了时下主流的社交平台——新浪微博,以及知识共享平台——百度知道,利用机器学习技术以及排序思想分别对两个平台的垃圾信息进行处理,设计了针对微博的垃圾信息检测算法以及针对百度知道的隐性垃圾答案沉降算法。本文的主要内容如下:首先,介绍了社交网络的定义发展以及常见的网络中的垃圾信息问题,分别针对微博和问答网站进行了垃圾问题概述,包括垃圾信息的分类、处理技术。其次,针对微博中的垃圾信息,提出了基于颜色的可视化垃圾行为特征提取和基于词项黑名单的垃圾内容特征提取,同时,在这两种特征集合的基础上,提出了基于贝叶斯网络的垃圾信息检测算法。实验证明,基于贝叶斯网络的垃圾信息处理算法分类结果要优于朴素贝叶斯算法,同时优于分别针对垃圾行为和垃圾内容检测的算法。最后,针对问答网站中的垃圾信息,先将垃圾答案分为显性和隐性,对较难用技术手段分类的隐性垃圾答案提出了沉降算法,引用物理学物体下落的思想,结果证明,该算法能够有效地将垃圾答案沉到答案序列的底端。