微博垃圾账号检测研究

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:spring19760128
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着诸如推特、新浪微博一类的新型社交网络的蓬勃发展,人们的生活和娱乐方式也发生了巨大的变化。社交网络为用户提供了在第一时间获取或发布多类型的信息如文本、图片、音频和视频的平台,在人们的日常生活中占有越来越重要的地位。然而,在社交网络为用户提供了信息交换平台的同时,垃圾账号的泛滥严重破坏了社交网络的生态平衡和用户体验。经过调研本课题将垃圾账号定义为主要以“僵尸粉”形式存在的、受机器控制的僵尸账号和以发送垃圾广告或其他垃圾信息为目的垃圾营销账号。本课题以新浪微博中的垃圾账号为研究对象,在对微博垃圾账号的行为特点的分析基础上,采用了一系列的垃圾账号检测方法,并最终通过异质信息网络实现了多类型数据结合的垃圾账号检测。本课题完成的工作分为以下几个方面:1.研究新浪微博数据的高效爬取和存储。2.对当前新浪微博平台中的垃圾账号的行为模式进行了分析和总结,并在此基础上进行了统计特征分析,使用从用户信息和博文信息中抽取的统计特征实现垃圾账号的检测。3.根据微博文本的特点如长度短、用词不规律以及特殊符号的使用等,设计了微博文本预处理过程和以词向量为基础的文本表示模型,通过特征选择和分类算法,实现基于文本的垃圾账号检测。4.研究异质信息网络和相关的相似度算法,构建了微博中的异质信息网络,提出了微博用户信息、博文信息和用户社交信息三类信息的合理结合方案以提升垃圾账号检测的效果,实验结果验证了该方法的有效性。
其他文献
由于西方体育媒体化及传播全球化的先入为主和铺天盖地发展,原本有本土优势和民族情结的我国传统体育文化,变成了被大众传媒遗忘的角落。以央视《武林大会》节目为例,运用传
利用均匀设计法优化了超临界CO2萃取(SCDE)桦树皮中桦木醇的工艺。采用均匀设计法考察了萃取温度、萃取压力、萃取时间对桦木醇收率的影响,并用高效液相色谱法测定了萃取物中桦
介绍了聚酯薄膜空调设计的特点,重点阐述了风量平衡、空调负荷的计算、空调设备的配置、气流组织等的设计,并介绍了该类工程设计中应注意的问题。
测试了空调机组不同运行台数下的噪声,分析了影响机组噪声叠加的因素,指出机组台数的增多不会对整体噪声产生较大影响。根据实测数据,提出了改善措施。
饲料行业的领军企业东方希望集团,进入铝业不到五年的时间,已建成两个大型电解铝企业,并开始建设一个氧化铝企业。本文从产业链延伸和新主业培育的战略成长角度,分析了其进入
根据河北省怀来县1954~2008年的年、夏季、冬季的平均气温资料以及1和7月的历年逐日最高、最低气温资料,研究其总的气温变化趋势、冷暖阶段以及最高最低气温的非对称变化和年
研究了微波协同大孔树脂催化合成肉桂酸异丙酯的新工艺,通过优化合成工艺得到了最佳工艺条件:肉桂酸2g,酸醇物质的量之比1:10,反应温度105℃,微波功率400W,催化剂为CAT-601树脂,催化
随着智能电网建设的不断深入和推进,配电网作为电网的重要环节之一也逐步向智能化发展,用户与电网之间的互动更为明显。相对于传统负荷而言,配电网中电动汽车、可中断负荷等
目的:胎动的次数多少、快慢强弱等表示胎儿的安危。只要胎动有规律,有节奏,变化不大,即证明胎儿发育正常。如果胎动逐渐衰弱,次数减少,此时为胎儿危险先兆。若此时不采取相应
以山榛蘑为原料,采用热水浸提法提取山榛蘑多糖。在单因素实验的基础上,通过正交实验进一步优化提取工艺条件,确定影响山榛蘑多糖提取率的主次因素分别是料液比、浸提时间、