基于多模态融合的虚假新闻检测

来源 :上海财经大学 | 被引量 : 0次 | 上传用户:laohe5201314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的进步,新闻可以在很多途径下进行传播,大家可以通过各种社交工具以及新闻网站查看到最新的资讯。在这些社交网站上,用户还可以在推送的新闻底下发表自己对此事的看法。发表者有时会用匿名方式进行消息的发布,这就导致了目前网络上各种虚假新闻的出现。这些虚假新闻有如下一些特点:规模大、传播速度快、造假手段多种多样等。对于一些恶意的虚假新闻严重时会造成大众的的恐慌,对企业也会带来一定程度的危害,甚至会造成政府公信力的下降。因此,我们需要在虚假新闻扩散前尽可能地去制止。就目前而言,新闻在进行辟谣时,主要是通过群众对虚假新闻举报,再去组织有关的专家审核该条消息是否属于虚假信息。这种模式需要大量人力物力的投入,并且这一过程需要消耗大量的时间,对于网络上的大量虚假信息来说,工作效率极低。因此,我们急需相应的算法来对虚假新闻进行自动化地检测。目前学术界在虚假新闻方面的研究主要分为两个方向:一个是基于社交网络的建模,还有一个是基于内容的建模方式。其中基于内容建模的研究主要是针对新闻中的标题、正文、评论等文本信息进行的,而对于一篇新闻来说,往往还包含着许多图片的信息。如果能综合考虑文本和图片的信息,可能会对检测的准确率有一定的提升。因此,本文的研究主要基于文本和图片这种多模态的数据,具体工作如下:1.对新闻的文本数据进行预处理,然后用文本分类常用的Text CNN模型进行检测,以此结果作为此次实验的基准。同时本文还设计了一种改进的CNN结构,将CNN分类用的Softmax层改为传统的机器学习模型作为分类器。最终通过实验证明,将CNN与机器学习模型结合时能取得更好的检测效果,其中,CNN与XGBoost混合模型的检测效果最佳。通过模型的混合,不仅提高了检测的准确率,而且增加了模型的可解释性;2.做虚假新闻的检测时,利用了多种模态的特征,如结构化的用户特征,非结构化的文本和图片特征。实验时分别对不同特征进行了建模,其中,对文本特征建模时的F1为0.902,加入图片特征后的F1为0.912,再加入用户特征后的F1为0.918。可以发现,充分利用新闻中的所有数据进行建模时效果最好;3.实验过程中还加入了一些对于真假新闻有一定区分度的文本和图片特征,如文本方面的文本长度、关键词、符号比例等特征,图片方面的图片尺寸、大小以及在检测图片压缩篡改方面有重要作用的DCT特征,通过这些特征的加入,再一次对模型效果进行了改善。综上所述,本文设计了基于卷积神经网络和XGBoost混合模型进行虚假新闻检测的算法,该算法在检测时利用了新闻中的文本数据、图片数据以及用户数据,为之后的虚假新闻检测工作给出了一个新的方向。
其他文献
我国股票市场是一个很庞大的市场,股票的现金分红中蕴藏着很大的研究价值。证监会近些年来陆续出台的一系列和企业利益挂钩的监督式激励分红的政策,可以增强上市公司的分红倾向和分红力度。但这可能并不是真的由于上市公司良好的经营绩效而自发产生的,不具有很好的持续性和稳定性,不能帮助投资者获得长期且稳定的持续现金回报。本文基于已有文献的研究,利用生存分析可以对时间因素进行分析和推断的这一优越学科特点,尝试性地从
学位
癌症分类预测在生物医学研究领域是一项极为重要的工作,该研究为癌症的诊断与治疗提供重要的依据。随着高通量技术的发展完善,大量的基因表达谱数据被用于癌症的分类研究中。基因表达谱数据是大量基因表达水平的集合,而现代分子生物学表明,癌症的产生与发展与基因突变、抑癌基因功能的丧失等息息相关。因此,基因表达谱数据也成为了癌症分类研究的主要数据来源。从基因角度出发,科学有效地选取少量致癌相关基因,不仅有助于癌症
学位
全面实施预算绩效管理是党中央的重大部署,是现阶段的一项重大变革。2022年政府报告指出,要重点深化预算绩效管理改革,增强预算的约束力和透明度。充分说明在推进预算资金有效运用,高效发挥各个单位的职能作用上,加强预算绩效管理在行政单位中显得格外重要。重视加强预算资金管控,稳步提升预算资金的使用效益,注重结果导向,成本效益,责任约束,以此建立政府权力的制约制度,把权力关进制度的笼子里,防范财务舞弊和公权
学位
扶贫开发四十年,我国减贫工作取得了可喜的成果。然而随着脱贫攻坚的推进,扶贫边际效应呈现递减趋势,脱贫与转贫并存。如何做好脱贫后续发展和转贫防控,不仅关乎精准扶贫工作的成效巩固,而且关系我国全面建成小康社会的质量水准。在现有的成绩上,要巩固脱贫成果,提高脱贫质量,将脱贫攻坚战由“打赢”向“打好”转变,防止转贫至关重要。过去转贫研究集中在贫困人口脱贫后再贫困的返贫问题上,且以定性、宏观及事后治理为主。
学位
经济预测主要是减少不确定性因素对工业经济发展影响的一种科学认识活动,通过对统计指标变化的预测来达到预判行业整体发展速度、质量的目的,而计算同比增长率是衡量统计指标变化的主要方法。统计局在进行行业宏观经济指标的统计时常以规模以上企业为统计范围进行全面调查,而规模以上企业基数是一个变量,不同统计周期对应的规模以上企业存在隐性变动,故对规模以上企业经济增长预测时,必须充分考虑到基数变动带来的影响。本文以
学位
现如今,青光眼是使患者失明的主要眼部疾病之一。从眼底图像中得到的杯盘比指标是诊断这一眼部疾病的重要依据。其中杯盘比是根据图像中划分出的视盘和视杯区域的最大垂直直径计算得到,而这两个区域的精确分割通常需要有多年经验的眼科专家来完成。现实中人工分割效率低下,因此借助模型完成此类分割任务具有很重要的实际应用价值。先前对眼底图像分割模型的研究往往追求在单个数据集上的分割效果。但是,对于由不同眼底照相机得到
学位
随着时代的发展,互联网科技发展突飞猛进,互联网和大数据带来的问题是由于信息过载而导致信息利用率低。在这种情况下,对于推荐系统的研究逐渐吸引人们的目光。推荐系统可以向用户推荐他们可能比较感兴趣的东西,通过进一步探究用户的行为,了解不同用户的个性化需求,把大量的长尾商品推荐给可能对其感兴趣的用户,不仅节省了用户的时间成本,同时也为使用推荐系统的网站本身带来了更多的利益,甚至可以推荐给用户一些他们感兴趣
学位
在世界高速发展的今天,石油作为战略资源其重要性不言而喻。因此确保石油高效、稳定的开采有着重要的意义。在石油开采过程中,结蜡问题一直是一个挑战。数据显示我国原油含蜡量高,据统计,含蜡量超过10%的原油几乎占所有产出原油的90%,而且大部分超过20%。高含蜡量也就意味着更高的结蜡风险,以及更高昂的清蜡成本。因此有效的预防结蜡对原油开采公司有着重要的意义。为帮助原油开采公司探索结蜡规律,预防结蜡问题,节
学位
随着互联网及其相关技术的发展,人们在享受网络带来的便利的同时,也面临着严重的信息过载问题,在面对海量信息的同时,不仅难以获得对自己有用的信息,也降低了自己的浏览体验。推荐系统是解决信息过载问题的有效手段,它能从用户的历史记录里学习到用户的偏好信息,并基于此预测用户在未来的信息获取需求,做出个性化的推荐。推荐系统不仅大大提高了用户获取有效信息的效率,提高了用户的使用体验,也给使用了推荐系统的企业带来
学位
在信息检索系统中,当用户输入查询后,需要快速返回相应的信息。在类似于知乎、百度知道等问答社区中,当用户提问时,若能快速匹配到最为相似的问题,并返回已有的解答给用户,可以防止重复提问的同时,也可以提高用户的体验。在智能客服或问答系统中,需要对用户的意图进行准确地识别,有效地解决用户的诉求。在上面举的例子中,都绕不开一个最为基础且核心的问题,就是文本语义的相似性判别。以人工智能技术为基础的智能客服系统
学位