融合多特征聚类的垃圾微博检测研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户：javaoak

【摘要】

：

近年来,微博因为交友和获得信息的便利性,逐渐成为人们广泛接受的在线社交方式之一。然而这种便利性也给垃圾用户带来了可乘之机。每天微博中都包含大量的广告微博,这些信息

【作者】

：

刘晶

【机构】

：

重庆大学

【出处】

：

重庆大学

【发表日期】

：

2015年期

【关键词】

：

垃圾微博检测相似微博聚类多联系方式检测用户特征融合

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,微博因为交友和获得信息的便利性,逐渐成为人们广泛接受的在线社交方式之一。然而这种便利性也给垃圾用户带来了可乘之机。每天微博中都包含大量的广告微博,这些信息反复出现,难以辨别真假,严重影响了用户的用户体验,更甚者,许多虚假中奖抽奖,违规医药等微博还会骗取用户个人信息,威胁用户的健康和财产。基于特征提取的文本分类技术是常见的垃圾识别方法,特征的有效性会决定着垃圾微博的识别精度。本文以新浪微博为例,对垃圾微博检测方法进行了深入研究,具体研究内容如下:首先,包含第三方联系方式是垃圾微博的重要基本特征之一。URL是垃圾用户采用的一种常见的联系方式。许多反垃圾研究都是基于URL实现的,新浪微博也采用这种方式检测垃圾微博,因此许多垃圾用户都逐步采用了新型的联系方式,但是在以往的研究中,这些方式没有得到重视。为了提高垃圾微博的识别广度,我们不仅考虑了URL,也考虑了垃圾用户会使用的其他几种联系方式。这些联系方式包括伪装格式的URL、QQ号、微信号和电话号码。其次,针对微博文本特征的随机性,我们提出了基于相似微博聚类的垃圾微博检测方法。在新浪微博中,约有30%的微博长度不足15个字符,在这些短文本中,许多垃圾微博和正常微博看起来十分相似,难以识别。为了得到更多的受骗者,垃圾用户总是操作多个账户同时发布垃圾微博,同一条垃圾微博会反复出现,相似的文本描述和同样的联系方式也会反复被使用,而正常微博不会。而相似微博聚类能够有效聚合垃圾微博,可以克服微博文本特征的随机性和模糊性。最后在真实的新浪微博数据上进行了对比实验,分类结果证明相似微博簇的特征参与分类时,分类准确度提升了10%。最后,很多垃圾用户会对垃圾微博进行包装,采用热门新闻或网络事件填充微博。这时,文本特征是无效的,从文本上判断不出微博的垃圾属性。为此,我们引入了用户属性。微博文本包装容易,而用户的属性如注册时间,微博数目等特征是一定的,难以改变,这些属性能够辅助微博的垃圾类别判定。在此基础上,我们提出了融合多特征聚类的垃圾微博检测算法。在真实的微博数据上的实验证明,融合多特征聚类在很大程度上提高垃圾微博识别的准确度,特别是在F值上有着明显的改进。

其他文献

无线局域网媒体接入控制层的性能研究

无线局域网(WLAN)作为其中一种无线接入网络，凭借移动灵活、保密性强、架设与维护容易等优点，越来越引起研究者和消费群体的关注。以IEEE 802.11为标准的无线局域网已经在全球

学位

无线局域网媒体接入接入控制层无线接入服务质量信道接入传输机遇

基于过滤器驱动技术的DRM研究与应用

随着互联网的深入普及，人们需求的知识越来越多的来源于网络，数字知识产品营运而生并得以在全球范围内迅速发展。数字知识产品依其便于复制、存储和传播的特点广受人们所青睐，应

学位

过滤器驱动数字版权版权管理数字签名数字水印用户模式

基于语义的P2P搜索算法的研究

P2P系统因其分布性、易拓展、负载均衡等优势,正在赢得广泛的关注。其核心思想是使应用从中央服务器向网络边缘的终端设备扩散,充分利用互联网中蕴含的潜在资源,减轻主干网络

学位

P2P语义搜索算法节点超级节点

基于Petri网的安全协议分析与检测方法的研究

随着Internet技术持续突飞猛进地发展,网络上的信息安全问题日益突出。特别是电子商务、数字货币和网络银行等新业务的深入开展,信息的保密性、完整性和可用性等安全问题成了

学位

安全协议Petri网模型检测

基于PVR技术的数字电视机顶盒的开发与研究

随着国家有线数字电视网络建设和网络技术的快速发展,以及网络规模不断的扩大,数字电视的普及必然成为今后电视产业的发展趋势。所谓数字电视技术,是将传统的模拟电视信号经

学位

PVR数字电视机顶盒MPEG-ⅡDVB标准Demux

一种P2P网络存储系统的设计与实现

随着P2P计算模式的兴起、网络带宽的大幅增加和Internet端系统计算力的迅速增强,原先被忽视的终端系统成为了一种宝贵的资源。如何充分利用这端系统资源,在高动态的P2P网络环

学位

P2P网络存储数据持久存储服务器架构

支持电子样本服务的企业和产品综合数据管理系统

随着国际互联网的高速发展,电子商务等网络服务已经渐渐成为人们工作和生活的一部分,并对传统的商业模式产生巨大的冲击。招投标活动中,传统的通过邮寄等手段获取资料以编制

学位

电子商务J2EE电子样本多媒体数据企业与产品管理系统

支持无线网络的流媒体系统及在嵌入式系统下的实现

随着互联网技术、信息技术和多媒体技术的不断发展,网络应用的种类越来越丰富,以流式传输为特点的流媒体系统逐渐成为研究的热点。同时,无线网络研究的发展以及嵌入式设备在

学位

流媒体系统RTSP媒体同步嵌入式

基于流量主成分HMM模型的DDoS检测方法研究

作为威胁当前网络安全、影响网络服务质量最严重的攻击方式之一,DDo S网络攻击是依靠其攻击原理简单、攻击形式多样、攻击效果明显,已经成为众多学者研究的焦点。同时由于其

学位

DDoS检测网络流量特征主成分分析DBSCAN聚类算法隐马尔科夫模型

扩展DNS实现主机标识协议的研究

计算机通信技术和计算机网络技术的高速发展,使得我们当前的互联网体系的局限性日益凸显。针对目前互联网存在的安全性差、缺乏可信度、不支持移动性和流媒体业务承载能力低

学位

主机标识协议主机标识DNS扩展安全连接

融合多特征聚类的垃圾微博检测研究

与本文相关的学术论文