微博媒体可信度分析与谣言检测的方法研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:dalianmaowh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0时代的到来,出现了各式各样的社交网络应用来满足用户日益丰富的社交活动需求,信息借助这些应用平台高速流动,加之各种智能移动终端技术的不断进步,越来越多的用户在推特、新浪微博等各种流行的社交网络媒体上发布消息并参与到热门话题的讨论中。新浪微博具有信息量庞大、传播速度迅速、受众群体广泛、影响力巨大等特点,这些特点使其成为很多热点事件和舆情的发源地和传播媒介。与此同时,自由化的表达方式和匿名化的用户行为使得不实信息的发布门槛和发布成本降低,这导致网络信息质量良莠不齐,大量的虚假消息、网络谣言、垃圾广告层出不穷,尤其是网络谣言的影响极其恶劣。如何识别谣言成为人们面临的严峻挑战。  传统的谣言检测方法通常将其视为二分类问题进行处理,因此特征的发现与选择对于分类器的分类效果至关重要。纵观现有的研究成果,基于特征的谣言检测方法仅关注文本内容、用户、传播等方面的静态扁平特征,忽略了消息传播演化结构的影响。此外,传统的谣言发现方法往往依赖于手动选取特征来训练机器学习算法,这不仅会耗费大量人力,而且目前人工选择的特征已经相对成熟,相关的研究慢慢陷入瓶颈。最后,我们希望得到语义和情感等高阶深层特征,消息媒体的浅层统计特征的表示空间与高度抽象的语义和情感空间之间的距离差距很大,因此传统的基于浅层或中层特征构建的分类器效果不够理想。综上,本文主要关注两个问题:如何建模消息的传播过程从而可以考虑消息传播的内部图结构和用户之间的差异性;特征选择方面,如何让机器自动学习人工提取不到的微博文本信息的隐藏表示来丰富现存的特征集。  本文的主要研究内容有以下两方面:  (1)针对传统谣言检测方法往往集中于对静态扁平特征的汇总统计,忽略了消息传播结构的影响的问题,提出标记信息级联传播树模型和该模型下的一种意见领袖影响力的动态度量方法。此外,本文还提出10个新特征,结合随机通路图核和径向基(RBF)核函数构造混合核函数来融合传播结构特征和普通静态特征这两种异构特征,建立混合核SVM分类器,提升谣言检测的精度。  (2)针对人工提取特征费时费力的问题,提出一种基于双向长短时记忆网络的微博谣言检测方法。此方法通过同时考虑事件的群体响应随时间线的文本正向序列和逆向序列,实现了真正意义上的全局上下文,从而学习文本在潜在空间的隐藏表示,得到语义和情感等高阶深层特征。  以上两方面的研究内容,本文均通过分析和实验来验证模型的有效性。
其他文献
近年来,随着智能手机的发展,人们的生活越来越依靠手机,随着国外某些著名品牌手机频频爆出信息漏洞,手机在成为人们连接世界的一扇窗的同时也带来了许多安全隐患。信息安全问
随着网络技术的高速发展,出现了大量的网络设备和复杂的网络环境,网络管理的工作越来越复杂,因此网络管理成了计算机网络的一项关键技术。简单网络管理协议(Simple Network Mana
随着科技的不断进步,计算机网络正得到飞速的发展,传统的客户端/服务器模式已经无法适应网络高增长的需求。服务器面临大量的负载压力,经常出现拥堵、崩溃等问题。如何减轻服务
随着高新技术的发展,汽车不再只是代步工具,人们要求汽车具有越来越高的经济性、安全性、舒适性、环保性,因此决定这些性能的汽车电子系统已成为整车系统的关键部分。而CAN、Fle
图像匹配是计算机视觉、模式识别和图像处理领域中的一项重要技术,发展快速。目前,它被广泛地应用于图像拼接、图像检索、三维重建、运动目标跟踪、目标识别等领域。本文针对
图像拼接技术是将一组相互间存在重叠部分的图像序列进行空间匹配对准,经重采样融合后形成一幅包含各图像序列信息的宽视角场景的、完整的、高清晰的新图像的技术。图像拼接
伴随科技的显著进步和社会的高速发展,今天的网络已经融入我们生活的各个方面。这些复杂网络系统在给我们生活带来便利的同时,也为我们评估和保障网络服务质量带来了诸多困难。
钢铁企业的生产过程并含着连续和断续的特征,是一个典型的混杂系统。在实际生产中,制定一个合理的生产调度计划来协调好生产过程中的物料、设备、检修时间、交货期等各个因素直
随着科技水平的不断进步,一项新的研究领域——信息物理系统,越来越受到专家和学者的关注,科学家预测它的出现将会改变了人与自然交互的方式,从而帮助人类更好的认识了解物理
专利文档中包含产品的组成结构、设计原理、组件功能等相关内容,蕴含了丰富的创新性技术信息,是领域内创新性和实用性的解决方案,被看作是产品创新设计的重要知识来源。功能的创新是产品创新的基础,从专利中获取其功能信息成为研究的热点。然而由于自然语言对知识表述的随意性,给这项研究带来一定的难度和挑战性。本文经过大量的专利文献的阅读,分析了专利文档的组成结构和知识分布,确定了专利摘要文本为功能信息抽取对象,通