垃圾微博信息过滤技术的研究

被引量 : 0次 | 上传用户:zhangduanhua870505
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交网络以其用户量大,信息传播速度快,范围广,互动性强的特点成为目前最大且活跃的社交平台。如新浪微博,微信朋友圈,Google+等社交网络平台已经成为互联网用户生活的重要组成部分。社交网络在给人们的生活带来便利的同时,其本身也成为了一些广告,传销分子散布垃圾微博信息的工具。所以,社交网络中垃圾微博信息的过滤和微博僵尸账号的识别已经成为了重要的热点研究课题。本文以新浪微博为研究平台,采用数据挖掘和机器学习的方法,从分类和排序的两种角度识别新浪微博中的僵尸账号,从而有效地过滤垃圾微博信息,主要工作分为以下四个部分:首先:采用统计机器学习中的在线主动学习算法,设计并实现了基于逻辑回归,朴素贝叶斯,支持向量机三种统计机器学习模型的在线分类系统,分别对单条微博信息进行分类。其次:从分类的角度,由于微博属于短文本,可以提取到的有价值的特征少,特征向量稀疏,机器学习分类器对单条微博的分类效果有限。因此,引入序贯概率比模型,根据第一部分前端分类器对每个账号发布的单条微博分类结果序列,来对微博账号进行分类,从而有效识别微博僵尸账号。再次:以账号为单位,从用户社交行为和微博内容两方面提取账号的特征,通过数据分析选取有效的特征,采用libSVM的分类器进行离线建模和微博账号分类。最后:从排序的角度,通过对微博平台上某个领域的子网中账号之间的社交关系,构建这个子网的社交关系矩阵,采用PageRank算法对子网中账号的价值度进行排序,根据排序结果来对账号进行群体划分,从而确定微博僵尸账号的群体范围。综上所述,本文从账号发布的微博内容和账号的社交行为等方面提取特征,采用统计机器学习的方法对微博僵尸账号进行检测识别,有效地从源头上减少社交网络平台中的垃圾微博信息。
其他文献
中国民航近十年经历了高速发展,民航客机一直以交通工具的高科技产品自居,且早期飞机总架次数量较少,在节能减排中并未将其作为工作关注点。近十年来民航客货机数量迅速发展
液化天然气(LNG)作为高效清洁的能源在近年得到飞速的发展,在世界范围内越来越受到重视。船舶运输是实现LNG进出口的重要途径,小型LNG船承担着沿海大型接收站与沿海沿江小型
近代科学技术的持续进步并不断引入生产、生活中,已经大大提升了人们生活品质与居住环境,同时使得人们的综合素质也有了大幅提升,促使人们生活习惯、保健养生需要等有了进一步变
共享发展是人类对美好生活的价值追求,是中国特色社会主义的本质要求。共享发展保障人民群众在经济、政治、文化、社会、生态文明权益的实现,实现社会的公平正义,让发展成果
目的比较4种镍钛根管预备器械去除重度弯曲根管内充填物的效果。方法选取40个单弯曲的树脂模拟根管,使用ProTaper Universal预备至F2,并于体式显微镜下拍摄照片,使用热牙胶连
<正>在小学数学教学中,不仅要向学生传授知识,而且更要注意数学思想的培养,这不仅是素质教育的需要,也是大纲的基本要求.下面,就分类数学思想的问题谈点粗浅的看法.
大江健三郎是继泰戈尔和川端康成之后第三位获得诺贝尔文学奖的亚洲作家,也是当代日本一位非常出色的以存在主义理念为指导思想的作家。《个人的体验》这部小说,是大江文学走向
推动能源绿色发展和循环发展已经成为国际社会亟待解决的课题。锂离子电池因具有功率密度大,无记忆性,充放电次数多等优点被广泛的应用于电力储能相关领域。本文将针对锂离子电
当前中国正处在社会经济快速转型时期,在物质财富急速增长的同时,以邻避冲突为典型代表的社会冲突日益尖锐,影响也越来越大,严重威胁到城市的可持续发展。在众多的邻避事件中
随着嵌入式系统的发展以及物联网的普及,各行各业对于嵌入式设备的需求日益剧增。在行业内部以及跨行业的应用中,行业应用的功能需求各不相同,各行业要求进行针对其的功能定制,如