微博谣言特征提取和基于多模型融合策略的谣言识别方法研究

来源 :南京审计大学 | 被引量 : 0次 | 上传用户:emmagarden
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,以新浪微博为代表的社交媒体逐渐成为人们传播信息的主要平台。社交媒体为人们共享信息带来了便利的同时,也为网络谣言的传播提供了途径。谣言在社交媒体上广泛传播会破坏网络环境,影响社会生活,所以对网络谣言实现自动化检测对维护社会稳定、保护人民利益具有重要意义。传统的谣言识别方法在提取微博的特征时,忽略了谣言关键词的词频信息和微博正文文本深层语义特征提取的重要性,故本文根据词频信息从谣言库中提取关联度特征并利用深度学习方法提取微博正文文本的深层语义特征,以此设计谣言识别模型,主要工作包括:其一,构造关联度特征并设计基于关联度特征和统计机器学习的谣言识别模型。考虑到词频信息对谣言识别工作的重要性,利用网络爬虫技术获取新浪微博平台最新的谣言和非谣言数据,结合现有数据集构造了微博谣言库和实验数据集。利用APRIORI算法提取微博谣言库的频繁项集,再通过Word2Vec模型提取近义词对频繁项集进行扩展,最终从频繁项集中提取关联度特征。关联度特征结合其它提取的统计特征进入统计机器学习模型进行训练,实验表明关联度特征能够有效地提高模型谣言识别的效果,同时设计了GBDT-R模型进行谣言检测,并验证了模型的识别效果。其二,设计基于多模型融合策略的谣言识别模型。考虑到单一模型的局限性和多模型融合策略对于分类效果的提升,本文设计了结合深度学习和机器学习的ALBERT-Text CNN-SVM模型。在微博正文文本的深层语义特征提取上,设计引入了新型预训练模型ALBERT并结合Text CNN的ALBERT-Text CNN,同时考虑到微博其它统计特征对谣言识别效果的提升,将ALBERT-Text CNN提取到的微博正文文本深层语义特征结合部分微博统计特征输入到SVM模型中进行训练,并命名为ALBERT-Text CNN-SVM。相较于单一使用微博正文文本的ALBERT-Text CNN,ALBERT-Text CNN-SVM在准确率、召回率、F1值上分别增加了0.68%、2.18%、0.78%,同时在与其他文献的对比实验中模型在准确率、精确率、F1值上达到了最优值,分别为95.98%、97.57%、95.78%,同时召回率达到了94.06%。实验表明ALBERT-Text CNN-SVM模型能够有效地识别微博谣言。
其他文献
内部控制在行政单位日常运行管理、行使关键职能的过程中发挥着重要作用,是保证行政单位高效、良性运转,并服务于国家治理的内生性规范。随着我国的经济社会不断发展,人民群众参与国家治理的意识逐渐增强,对政府履职行为与效果关注度与日俱增。而行政单位作为行使国家行政职权的国家机关,完善其内部控制体系,加强对权力运行的监管,是实现国家治理体系和治理能力现代化的基础工程。然而,现阶段我国基层行政单位的行政执行能力
学位
造纸业作为制造业的分支,是一个与国民经济发展和社会文明建设息息相关的行业,也是“中国制造2025”的战略重点关注行业。然而近年来造纸业在带来高经济收益的同时也对环境和生态造成了前所未有的压力。造纸行业市场集中度低和高污染高能耗的特点使得其一直以来是环境规制的重点行业,也启示着行业发展的未来。造纸行业企业想要获取竞争优势实现企业价值,就需要转变当前的生产经营模式,进行“绿色化”改造,提高资源配置效率
学位
英语教材和绘本故事皆是落实培养英语学科核心素养的重要资源,将二者有机融合,能有效落实语言、文化、思维、情感的融合,激发学生阅读兴趣,开拓学生英语视野,提升学生阅读素养,也能为教师的专业成长提供更广阔的路径。本文从课内外阅读融合的育人价值出发,积极探寻主教材与英语绘本融合的具体方法,尝试在深度解读、问题解决、活动实践的过程中建立课内外阅读的桥梁,构建有活力、有深度、有意义的“悦读课堂”,促进学生对主
期刊
经济全球化重塑企业之间的贸易格局,海外并购成为企业提高产品附加值、提升国际竞争力的重要战略。依托于中国政府及监管部门出台的相关利好政策如“一带一路”倡议、“走出去”倡议,越来越多企业把握有利时机成为国际市场海外并购主力军。然而,企业的海外并购进程仍处于起步阶段,由于缺乏风险敏感度和风险防范意识,大多数企业的海外并购都以失败收尾。新时期面临新挑战,在全球汇率大幅波动、经济环境低迷、中美贸易关系日益紧
学位
当今时代对可持续能源的迫切需求推动了可再生能源技术的不断改进,其中氢能因其清洁环保且能量密度高而受到了科研人员广泛关注.电解水制氢作为一种绿色环保的制氢方式,其阳极析氧反应(OER)的高能耗限制了电解水制氢技术的广泛应用.近年来,高性能的OER催化剂的研究得到了长足发展,但催化剂的测试范围小,且很少能够连续工作数百小时,远远不能满足实际应用的需求.为了更好的适用于工业应用,OER催化剂需要满足更苛
期刊
近年以来,我国债券市场进入快速发展阶段,信用债市场与社会信用逐步扩容,债券融资正成为企业主要融资渠道之一,但所带来的便是高杠杆经营的负面效应,进而产生连锁效应使得企业资金链脆弱而导致财务、经营风险升高,债务违约事件频频发生。其中,民营企业债务违约问题尤为严重,妥善解决债务违约问题成为企业的当务之急。因此,选取代表性民营企业债务违约事件进行研究,不仅可以深入探讨宏图高科债务违约诱发成因,并能以此为支
学位
近年来,社会经济活动的复杂性和不确定性为会计师事务所带来了多重风险的冲击,日益增加的审计风险使得事务所面临着巨大隐患。部分会计师事务所为了追求进一步的发展,急速扩张审计业务,但抵御审计风险的能力并不足以满足审计业务的需求,其风险管控水平提升的需求日益迫切。会计师事务所有必要准确识别并有效防御审计风险、提升审计风险管控的能力,进而开展有效的审计风险管控工作。与此同时,审计准则制定部门为应对披露更多审
学位
很多地方性氢能产业政策都优先于国家中长期发展规划出台,氢能产业政策编制质量直接关系到我国氢能产业高质量的健康发展。文章系统地梳理了国家和地方氢能产业政策发展脉络,检索了2017年1月1日至2022年6月1日期间发布的地方性氢能产业政策,聚焦于发展目标、技术路径、应用场景和扶持政策4个维度对政策内容进行文本量化分析,挖掘典型城市氢能产业发展规划的政策特征。研究结果表明:我国地方性氢能政策整体上在发展
期刊
审计是我国治理体制的监督体系,在保障经济健康发展、加强廉政建设等方面发挥了重要作用,而经济责任审计是我国特有的一种审计形式,客观评价领导干部任职期间经济责任的履行情况,既完善了干部管理制度,又增强了政府公信力。然而,在高度信息化的社会,海量审计知识在互联网中呈碎片化分布,常用搜索引擎又常夹杂着广告,审计人员难以精准获取审计知识。为解决这一问题,本文以经济责任审计知识为例,构建审计主题知识库。旨在为
学位
近些年来,在许多领域,如计算机视觉、模式识别等,图像识别技术得到了广泛的应用。在图像识别的过程中,特征提取这一步对于图像的识别准确率存在很大影响,现有的许多算法只有在图像噪声较小或无遮挡时才能取得较好的效果,但在实际场景中,图像往往存在各种噪声,例如光照、阴影、遮挡等,面对这些图像时,算法的识别能力会大大降低。因此,本文基于低秩回归与低秩表示的特性,并且结合流形学习与非负矩阵分解,针对遮挡图像,提
学位