面向微博谣言的检测方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:jbhjyh12345678
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,新浪微博是中国活跃人数最多的社交网络平台及讯息的传播基地,信息繁多,传播自由便捷,影响力巨大,成为舆情爆发和升温的重要传播媒介。谣言自动检测任务引起自然语言处理、数据挖掘等领域研究者的强烈关注,能够用于辅助预警、预防、监控、治理等谣言清除工作。针对新浪微博、Twitter中的谣言信息检测,国内外研究者已进行了大量的研究工作,但大多数工作都利用特征工程的传统研究方法,例如从用户角度、文本角度、社交媒体网络角度,抽取信息特征,再构建分类器对信息进行识别。然而,传统方法需要语言学、心理学背景,并且抽取特征的过程繁杂,易出现特征冗余、特征缺失等现象。深度学习模型可对文本进行细化及抽象,自动抽取特征,同时将特征学习融合到模型的构建中。本文主要研究了GRU和LSTM模型在谣言检测上的应用,判断文本是否属于谣言类信息。但考虑到新浪微博平台的图结构,一条微博文本对应着多条评论信息,评论中可能包含对该条文本的态度,例如赞成、反对、怀疑等。并且,评论由多个用户发布,数量庞多,蕴含着丰富的意见或建议。因此,在本文的研究中,利用两种方法对评论进行建模,学习评论的语义表示,衡量微博文本与评论间的关系。一种方法为“基于时间序列网络的谣言检测”,将评论看作一条时间线上的各个时刻,按照时间结点展开,作为时间序列模型每个时刻的输入,并且利用注意力机制衡量每个时间结点对最终语义表示的重要程度。另一种方法为“基于记忆神经网络的谣言检测”,认为每条评论间相互独立,将每条评论放入长时记忆的记忆数组插槽中,选取与输入微博文本相关度高的评论内容参与计算,构建分类器。
其他文献
微电子技术的迅速发展促进了片上系统( SoC)的出现,集成电路的发展随之进入了一个新的发展时期。SoC的设计技术是从“集成电路”级设计到“集成系统”级设计转变的结果,其设计是
互联网中P2P应用的流行,网络蠕虫和僵尸网络的泛滥,严重威胁互联网的正常运转。使用流量分类方法标识出互联网中各种应用的具体分布,可以帮助运营商按需配置优化网络,限制P2P
随着信息产业的发展,人们获取数据和知识的手段已趋向于多样化。人类拥有的数据量越来越庞大,在这些数据量的背后可能隐藏着大量我们感兴趣的信息,如何有效的挖掘这些信息成
伴随着嵌入式技术的迅速发展,移动终端设备得到普及。终端设备的广泛应用,使其数据管理问题逐渐得到重视和研究,嵌入式数据库的概念也应运而生。当前,带有嵌入式数据库的移动
随着World Wide Web的快速发展,Web信息越来越多的出现在互联网中,而网络动态语言以及Web数据库技术的发展,使得Web上信息呈现出动态性和深层性的特点。对于传统搜索引擎而言
语义网是人工智能和Web技术相结合的产物,语义网的内容表达是基于XML (eXtensible Markup Langauge)语言和资源描述框架(RDF)来实现的。XML允许使用者以层次结构自定义标记来
近年来,软件行业的发展趋势是,从传统的卖软件转向卖服务,从C/S转向B/S,存储和计算向服务器端转移,也就是现在比较热门的云存储和云计算,这样一来,在客户可以方便的享受服务
软件测试是软件开发过程一个重要的阶段,随着现代科技的迅速发展,社会的各个行业越来越多地应用到软件产品,从而使得软件产品的质量越来越被关注。回归测试是在软件开发过程中为
随着IPv4地址分配告罄,IPv6已经成为最佳的解决方案。OSPF协议作为最重要的路由协议之一,其相应的OSPFv3也在不断的更新。目前对路由协议的测试主要集中一致性测试方面,对于
学位