基于图神经网络的微博水军识别系统的设计与实现

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户:benjaminzsj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网和社交网络的迅速发展,社交媒体已经成为人们日常娱乐、交流分享、获取信息的重要平台,新浪微博作为国内受众最大的社交媒体,影响着人们生活的方方面面。与此同时,微博的巨大流量也催生了微博水军这一黑色产业,他们受利益驱动,散播垃圾信息或谣言,扰乱了网络传播秩序,引导社会舆论,给个人和集体带来了不利影响。如何有效地快速识别微博水军,对净化网络环境、维护网络秩序具有重要意义。传统的网络水军识别研究主要从内容、用户、环境、综合特征展开,由于水军行为不断趋于正常化,传统方法不能有效地全面识别,对此,本文利用难以伪造的社交网络结构,提出了一种基于图神经网络的微博水军识别方法。具体的研究工作如下:首先,将微博用户作为图的节点,用户间的关注关系作为图的边,通过网络爬虫获取数据,提取微博用户自身的信息以及用户之间的关联信息,构造微博用户的社交网络图。接着,对获取的微博用户进行人工标注,细粒度划分为不是水军、轻度疑似水军、疑似水军、重度疑似水军和确定水军5类,得到原始数据集。然后,在数据预处理过程中,针对微博节点信息数据跨度较大的问题,设计一种新的分段线性归一化方法,使处理后的数据较均匀地映射到[0,1]之间,弱化因某些变量较大而对模型产生的不利影响。最后,研究图神经网络算法,构建微博水军识别模型,将图数据输入到图注意力网络中,通过堆叠的图注意力层更新节点的特征向量,得到图的节点分类结果,既而达到识别水军的目的。为了验证模型的有效性,设计图注意力网络与逻辑回归、朴素贝叶斯、支持向量机以及图卷积神经网络模型的对比实验,利用4种评估指标评价模型的有效性,实验结果显示本模型在有标签的训练集规模较小时就已取得较好的分类效果,泛化能力较强。结合此分类模型,设计并实现了一个基于Django框架的微博水军识别系统,且对系统的识别效果进行了测试,验证了系统的可行性。本系统能够便捷高效地识别微博水军,为辨别或研究微博水军提供便利,具有良好的应用前景。
其他文献
随着网络技术的发展,越来越多的学者开始在网络上发表文章构建形象。由于网络平台的特性,互动在网络学术身份构建中日趋重要。然而当前关注学术体裁中在线身份构建的研究有很多,但是很少有从互动角度来分析在线身份构建的。本文使用基于语料库的研究方法,对中国学者在微博中运用的互动方式及构建的形象进行研究。本研究的语料选自15位中国学者在新浪微博上发表的博文共300条,每位学者均为粉丝数超过10000的中国大学教
苏珊-洛莉·帕克斯(1963-)是当代美国杰出戏剧家,也是第一位荣获普利策戏剧奖的非裔女剧作家。《美国戏剧》是其早期代表作,彰显了剧作家独特的戏剧创作理念。剧中的“洞穴”不仅充当了背景空间,更是一个汇集剧作家主题思想和戏剧美学的异托邦空间。然而遗憾的是,这一重要的特殊空间并未引起学界的足够重视。本文借助米歇尔·福柯的异托邦理论以及黑人美学,以《美国戏剧》中的“洞穴”为切入点,重点探讨帕克斯如何运用
越来越多的研究表明,运动事件的表达存在类型学差异,即不同的语言对运动事件的表达方式不同。这种差异不仅引起了研究者对单语使用者运动事件表达的关注,还在近年来引起了他们对二语使用者运动事件表达的关注。在国内,有关中国英语学习者在口头叙事中如何使用目标语表达运动事件的研究也在逐步增加,但是,先前研究多为横向研究,且多关注方式和路径动词的使用,较少关注趋向动词以及句式结构。本文基于Talmy的运动事件框架
中国是盐碱地大国,人均耕地面积远低于世界平均水平。利用无土栽培技术提高土地的生产效率成为中国农业向着高效化发展的重要途径。推进物联网技术在无土栽培中的应用,提高农业智能化管理水平是加快农业现代化的有效途径,而数据融合技术的应用对于实现高效、低成本的数据采集整理起到关键作用。由于我国发展农业物联网起步较晚,数据融合决策精度较低,很多管理系统缺乏一体化、信息化管理。在此背景下,本文通过实地调研、需求分
汉语中存在大量特殊复杂的论元结构,包括“把”字句、“被”字句、存现句、主宾倒置句等。前人已从配价语法、生成语法、构式语法、类型学等视角对汉语中的论元结构进行分析与解释,但是目前关于汉语论元结构的研究层面较为单一,对系统性揭示汉语论元结构的生成机制能力有限,而在格模式下对论元结构的研究较少且存在一系列问题:1)多从狭义形态理论出发考察汉语的论元分布问题;2)研究中的术语混乱,汉语动词归类标准不统一;
英语冠词系统包括三类冠词,定冠词、不定冠词和零冠词。由于英语冠词系统的复杂性,一些研究者认为英语冠词是不可学或不可教的,但是冠词对于语言学习来说又是尤为重要的,特别是在学术写作中。前人主要从名词角度对冠词错误使用进行了研究,但有研究者指出冠词的使用并不只是由名词或名词短语决定。本文的主要目的是从词块使用角度,探究中国硕士研究生和博士研究生在学术写作中定冠词使用错误情况。借助词块探究定冠词使用错误是
本翻译实践报告是以韩国作家河成兰的韩国短篇小说集《邻家女人》一书为翻译文本。全书由十个短篇小说组成,第一篇小说《邻家女人》为本书的标题之作。小说集的主人公们大部分是游走在社会边缘的人群,例如家庭主妇、汽车销售员、商场监控员、日料店主厨等。本书作者河成兰,被誉为“超精细描写女王”,其作品不仅带有极为细腻的女性气质,同时奔放的想象力与清醒的现实感并存。1通过小说的细腻描写,我们不仅可以切身体会到社会边
随着癌症基因图谱(The Cancer Genome Atlas,TCGA)计划的实施和新一代测序技术的发展,产生了海量复杂的生物组学数据。这些组学数据中蕴含着丰富的有关生物功能与基因调控等的遗传密码。如何在海量组学数据中探索并提取关键数据以获得重要组学信息是当前的研究热点之一。传统的矩阵相关的数据处理方法在不同领域取得了一定的成效,但基于矩阵的数据表达方法存在一个明显不足,即矩阵模型不能充分探索
本文设计并实现了一个阿尔兹海默症(Alzheimer’s Disease,AD)辅助诊断系统。该系统使用前后端分离的架构,前端使用Vue,后端使用Django框架,实现了针对用户输入的功能性磁共振成像(functional magnetic resonance imaging,fMRI)数据矩阵,使用机器学习方法判别样本所有者是否处于AD状态或轻度认知障碍(MCI)状态或健康(HC)状态的功能。本
互联网+模式的飞速发展,为线上教育聚集更多优质资源提供了便利条件,使其摆脱了时间和空间的束缚。近年来,尤其是新冠疫情以来,相较于线下教育的举步维艰,线上教育备受人们青睐。然而,随着线上教育系统的广泛应用,其弊端也日益突显。中心化管理和单点存储模式使得用户信息易被篡改或丢失,用户和系统之间缺乏信任。因此,亟需构建一种信任方案保障线上教育系统的可信度。区块链具有不可篡改和易溯源等特性,符合线上教育系统