基于深度学习的谣言检测研究

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:zhanghuajngs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人们日常生活与社交媒体的关系越来越紧密,微博作为当前最为重要的社交、信息来源平台,其中夹杂的谣言信息左右着网民的对事件的认识、动摇着社会和谐稳定。针对当前社交平台存在谣言但平台甄别慢、响应不及时的问题。基于深度学习的谣言检测方法以其高效、准确的特点越来越受到关注。经分析,在谣言检测时融合评论情感特征与正文文本特征对提升谣言检测的表现有积极意义,因此,本文针对微博谣言提出一种融合情感特征和文本特征的谣言检测方法,并做出以下研究:(1)提出一种带标签语料的生成方法。针对基于深度学习的方法普遍存在的缺乏训练数据的问题,根据评论中的emoji表情的情感极性推断该条评论的情感极性。使用此方法将大幅增加可以用于情感分析模型训练的带标签语料,提高情感分析模型的性能。(2)提出一种融入情感值的注意力机制。通常情感分析是训练出一个文本分类模型并将其应用于情感分析任务,为了使模型具有更好的分类性能,本文选择训练一个包含注意力机制的文本分类模型。除此之外,为了使该模型更加适用于情感分析任务,本文在注意力机制中引入词汇的情感值,使模型训练时更加专注于对高情感值词汇的分析。与其他情感分析模型进行对比实验显示,本文提出的情感分析模型的分类准确率有了显著提升。(3)提出一种进行特征子集分类选择与冗余特征过滤的特征选择方法。为了对微博正文进行文本特征选择,针对传统基于信息增益的方法存在的不适用于数据分布不平衡语料,并且提取后的部分特征在类间具有较高相关度的问题。本文提出的基于特征子集分类选择与冗余特征过滤的文本特征选择方法通过限定各类待选择的特征数目上限来实现对不平衡语料的特征选择,并通过删除在类间出现频率相近的特征词来减少冗余特征。分别采用本文提出方法与其他特征选择方法在KNN分类器中进行文本分类实验,并对分类结果进行对比分析。结果显示,本文提出方法在分类准确率和运行时间效率上均有更好的性能。(4)提出一种融合情感特征和文本特征的谣言检测方法。通过情感分析模型对待检测微博评论进行情感特征提取,通过特征选择方法对待检测微博正文进行文本特征提取。结合情感特征和文本特征后共同表达该条微博,以此为依据进行该条微博的谣言检测。同时使用本文提出的方法与多种谣言检测基线方法进行谣言检测对比实验,并对正确率、准确率、召回率和F1值四种分类评价指标进行分析比较,结果显示,本文方法在多种指标上均优于基线方法。
其他文献
在过去的十几年中,多种摔倒检测算法被相继提出,但目前的基于深度学习的计算机视觉摔倒检测算法仍存在以下问题:(1)多数方法使用两个网络对目标进行分类和摔倒判定,会导致特征被重复两次提取,造成算法的冗余。(2)现有的摔倒检测数据集中包含的小目标样本过少,造成小目标检测的准确率低。(3)网络模型的深度不够进一步造成小目标检测的准确率低。(4)网络模型仅是对状态的检测,对于类似摔倒行为会造成误判。(5)网
学位
交通标志为驾驶者提供前方道路信息,对于人们的行车安全起到保障作用,随着交通系统智能化的发展,交通标志检测与识别技术愈发受到科研工作者的关注。保证实时检测的条件下,提高交通标志检测与识别的精度,对智能化交通以及无人驾驶汽车的发展具有重要意义。目前针对交通标志检测与识别方面的研究,一些国内外相关学者已取得了一定的进展,但是由于交通标志的目标较小,并且在自然场景中容易受到复杂背景、光照、遮挡及变形等不可
学位
<正>策展,对我而言,是一种探索的方法,持续探索未知领域。策展已经不同于以往传统博物馆中策展人所做之事,策展指涉一个更大范畴的实践,跨越更多层面的实践,同时也引起了人们对策展人角色的不断思辨。在过去二十年中,人们对策展人工作的认识发生了彻底的转变。人们不再将策展人看成是作品的照管者或幕后的审美仲裁者,而是作为在更广阔舞台上发挥能量的一群人。他们将策展置于一个更广阔的政治、经济及文化语境之内去审视,
期刊
半监督学习是机器学习领域研究的一个重点方法,在只有部分数据有标签的情况下,可以利用无标签的数据进行学习。时间序列是一组按时间排序的变量,与传统的离散数据不同,时间序列数据之间一般具有某种程度的相关性,其独有的时间依赖关系是一个重要的监督信号,可以被用于半监督学习中以监督无标签时间序列数据的学习。但是现有的时间序列半监督分类方法往往忽略了时序数据的时间关系,未能对无标签的时间序列数据加以充分利用。为
学位
车辆自组织网络(VANETs)可以改善交通流,促进智能交通,并提供方便的信息服务,在辅助车辆驾驶、安全警告等诸多应用都有广泛性的表现。但是随着车辆节点与其他节点的数据共享在规模和维度上呈现爆炸性增长,传统的车联网会受到身份有效性和消息可靠性等问题的影响。同时,现有的用于近邻查询处理的可扩展增量处理技术只提供了树索引上的技术创新,而没有考虑分级的隐私保护问题,导致查询效率低下,查询精度低。基于上述原
学位
生物医学词义消歧在生物医学领域应用广泛。机器翻译、文本挖掘和基因命名标准化等都是生物医学领域有价值的研究课题。生物医学文本的复杂性和多样性,用机器进行自动处理,可能无法得到专业词汇的正确含义。因此,生物医学词义消歧是上述工作进行的基础。本文通过对生物医学词义消歧知识和多种神经网络模型的研究,将注意力机制(Attention Mechanism)、多尺度非对称卷积神经网络(Multi-scale A
学位
语音信号作为人类文明传播的主要途径之一,在现实生活中,语音可能会被其他人声或噪声干扰。因此,在语音信号处理领域,语音分离致力于从多源信号中分离出单个信号,经常被用于语音信号的前端处理,对语音增强、语音识别及人机交互等起着重要作用。传统的语音分离技术多数致力于纯语音的单模态信号处理,随着多媒体技术的发展语音信号往往伴随着视频信号的产生,所以结合视觉信号来辅助语音分离成为了新的研究方向。另外,由于复杂
学位
电源变换技术的飞速发展,带动了电力电子设备的大量应用,一方面使电能的转化和应用变得方便,另一方面使电网的电能质量严重降低。有源电力滤波器(APF)可以全面解决电能质量问题,具有体积小以及动态性能良好等优点。传统两电平拓扑结构的有源电力滤波装置对于中高压场合并不适用,在向多电平拓展时,由于使用过多的功率器件和储能元件,使得装置体积变大,成本提高,因此在中高压场合多电平有源电力滤波装置的拓扑结构逐渐成
学位
随着单件复杂产品需求的不断扩大,以缩短加工用时为主要课题的研究取得了相当可观的进展,特别是综合调度的提出给行业制造带来了新思维。虽然综合调度领域已经取得了许多成果,但这些算法没有从子树等级方面解决加工效率的问题,以及利用子树等级解决中间费用的问题。针对紧前工序加工完毕后产生的中间产品若不立刻进入装配,其存储费用会随等待时间增长的问题,首次提出考虑中间费用的子树等级综合调度算法。该算法采用子树等级调
学位
随着科技的飞速发展,可穿戴智能设备如今变得无处不在,移动群智感知基于这些智能设备为智慧城市的发展提供了新的可能。如今,智能设备内置了各种价钱低廉但功能强大的传感器,如陀螺仪传感器、GPS、加速度传感器、相机和麦克风等。移动群智感知充分发挥这些智能设备的作用,合理利用这些内置传感器,把参与式感知扩展到了一个新的高度,一方面参与感知的用户收集数据,另一方面获得感知用户贡献的数据。任务分配是移动群智感知
学位