面向微博的水军识别研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:xiqing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今人们的生活已经离不开互联网,社交网络成为了社会中必不可少的一部分。国内以微博等为代表的在线社交网络快速发展,微博水军作为国内新兴的网络水军由此诞生。微博水军利用微博平台用户多,信息广的特点,在微博平台进行谣言扩散或者通过对发布的某些博文进行大量转发、点赞或评论去误导用户,极大影响用户对信息真实性的判断。因此,有效并且实时地去识别出这些微博水军团体,对于保护用户利益、塑造和谐的网络社交是具有很大的研究意义。本研究内容根据微博水军近年来的进化演变以及微博用户数据的海量特点对识别时间的挑战及算法需要解决的问题,设计了基于Spark平台并行化权重随机森林算法的识别模型。针对部分特征分类效果降低的问题,对已有研究中微博水军的特征进行清洗并重新筛选出新增特征组成最终特征集;首先将已有微博水军某些特征进行实验剔除分类效果降低的特征,再通过经验观察和实验重新再筛选出新的具有良好分类效果的特征,最后将剔除了差分类效果特征的特征集和新的特征集综合来进行对微博水军的识别;针对由于微博用户数量巨大的原因,海量的用户数据在建模和识别计算的过程中要不断地进行数据读取和更新迭代,时间消耗巨大,所以在沿用综合特征进行识别研究的基础上,选择基于内存计算的分布式并行化计算框架Spark,再将对于大数据具有优秀分类性能的随机森林并行化到Spark平台上,但其中传统随机森林算法无法评估决策树分类能力,所以为了减少分类较差的决策树投票结果对最终结果的影响占比,采用了给每棵决策树赋予权值的方法。使用袋外数据计算决策树的AUC值根据性能优劣附加权重,根据权重大小判断、计算,最终获得分类结果。模型实验结果表明,重新筛选有效特征并添加新特征综合识别,保证正确率的同时,随机森林算法并行化模型减少了模型训练和识别时间,提高了整体效率,具有良好的加速比、并行效率,实现了海量用户的快速、准确识别,模型分类效果综合衡量F值高达93%以上。
其他文献
目标检测是计算机视觉领域的基础任务之一,是融合了模式识别、深度学习、图像处理等多个学科的前沿技术,其主要任务是确定目标在图像中的位置以及目标的类别。卷积神经网络提取的特征表达能力强,广泛应用到目标检测中。基于卷积神经网络的目标检测算法有着检测精度高、检测速度快的优点,广泛应用到工程实践中的各个领域。本文重点阐述了几种有关于二阶段目标检测算法的改进策略,在检测精度上对Faster R-CNN算法有一
火成岩作为地壳中含量最多的岩体,近年来在油气勘探中的影响力越来越大。一方面火成岩作为非常规油气储层,陆续在渤海湾、准噶尔、松辽、二连等含油气盆地被发现,表现出火成岩油气藏巨大潜力;另一方面火成岩作为异常岩性体,随着塔里木盆地台盆区超深层复杂油气藏勘探的深入,对奥陶系灰岩断溶体成像精度要求越来越高,但由于火成岩对地震波具有强烈的屏蔽和吸收作用,严重影响了断溶体的成像精度。为了探明二连盆地W工区花岗岩
近年来,电动汽车行业快速发展,动力锂电池的可靠性和安全性正逐渐成为新能源汽车健康发展的瓶颈。为保证电动汽车可靠安全,大多电动汽车动力锂电池和电池管理系统(BMS)配套使
铁路交通作为国民经济发展中的重要构成部分,对于国民的日常出行具有重要影响。安全因素作为铁路交通的基础性保障因素之一,与国民生命财产联系最为紧密。《关于深化客运风险管理指导意见》对于客运领域的安全管理问题提出了针对性规定和建议,而国家铁路局从2014年开始颁行的《铁路安全公告》则拉开了铁路交通安全管理的序幕,也是针对铁路乘客安全保障进行关注的标杆性政策。基于铁路旅客安全保障的复杂性和系统性,我国当前
在当今工业化飞速发展的时代,工程项目的复杂性日益增加,为了使系统按照工业化需求进行生产,必须设计出优良的监督控制系统,这样不仅可以预防系统的死锁,也可以在有限的生产成本下提高系统生产效率。Petri网是一种描述离散事件系统的建模工具,可以对复杂制造系统进行描述与分析,并直观阐述制造过程中的诸多系统特性。监督控制理论是离散事件系统的一个重要研究分支,广义互斥约束(GMEC)作为离散事件系统监督控制理
伴随着经济的高速发展,能源紧缺以及环境污染相互间的矛盾越来越突出,使用清洁能源和可再生能源代替传统的化石能源迫在眉睫,在清洁能源中风能凭借着储量丰富,无污染,可再生等优点被人类所利用,风能发电是利用风能的主要方法。本文设计了小型风能发电控制系统的硬件系统和软件系统,研究了最大功率点电压策略以及考虑事件触发的最大功率点电压策略的最大功率跟踪的模糊控制问题,得到了一些有意义的研究结果,本文的主要工作包
网络化非线性半马尔可夫跳变系统与Takagi-Sugeno(T-S)模糊半马尔可夫跳变时滞系统在实际领域中有着广泛的应用.本文解决了两类带有执行器故障、参数不确定项、系统状态不可测以及部分未知的转移速率的半马尔可夫跳变系统的有限时间H∞控制问题.通过利用事件触发控制方案、基于观测器的控制方法、延迟系统方法和自由-权矩阵方法,本文在第三章中提出了保证网络化非线性半马尔可夫跳变系统达到有限时间H∞的充
一场突如其来的疫情使得2020年的开启变得极不平凡,也正是这场无硝烟的战争暴露出我国在乡村治理方面的许多问题。习近平总书记提出:“这次抗击新冠肺炎疫情,是对国家治理体系和治理能力的一次大考。”这次疫情大考凸显出推进国家治理体系和治理能力现代化的紧迫性和必要性,特别是在乡村治理领域治理体系和治理能力的短板和不足。习近平总书记在党的十九大报告中指出:“加强乡村基层基础工作,健全自治、法治、德治相结合的
可充电传感网络是传感网中的一种,其中节点具有可充电性,在节点能量不足的情况下可以对其能量进行补充。能量补充的方式有很多种,节点可以收集周围的能量比如太阳能、风能等。但是可再生能源的时间和空间变化使得传感器能量收集率的预测变得非常困难,给传感网络的持续运行带来很大的不确定性。随着磁共振耦合技术的发展,利用移动充电小车来对节点进行能量补充已经成为最流行的方式。当网络的规模变大,使用一对一充电方式或者单
高速铁路作为一种快捷方便的交通工具,在我国经济社会发展中起着至关重要的作用。近年来我国极端降雨量事件的频次逐渐增加,在强降雨等极端天气与密集列车运行联合作用下高速铁路路基产生翻浆冒泥,影响列车安全运行;高聚物注浆作为一种有潜力的路基修复新技术,确定合适的注浆填充体弹性模量和注浆范围是保持轨道-路基体系良好动力学特性的关键难题。本文基于全比尺无砟轨道路基模型试验,重现列车运行荷载下路基的翻浆冒泥现象