社交媒体数据流谣言实时检测方法的研究

来源 :武汉大学 | 被引量 : 4次 | 上传用户:qq77880066
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的高速发展,社交媒体已经从一个基于用户关系的通讯工具,逐渐演变成了人们获取新闻信息的主要渠道。社交媒体中的新闻传播主体呈多元化,人人都是新闻的制造者、传播者与接收者。社交媒体打破了传统新闻传播的边界,使得新闻传播可以跨越国界、产业、社群等得到全方位的发展。社交媒体的用户群体多样化、产生数据量大、消息文本碎片化等特征明显区别于相对数据流量较小的网络新闻媒体。研究网络新闻媒体与社交媒体的新闻传播行为也成为了西方学者们竞相研究的一个方向。但在中国,学者们对该课题的研究却尚处萌芽状态。中国汉字的复杂性和民族的多样性,以及汉字使用群体的庞大,导致中国的社交媒体平台和传媒渠道更具有中国特色。随着中国国际地位的日益提升,研究中国传媒的话题性与西方传媒话题性之间的相互覆盖率和区别也显得十分重要。社交媒体在革新了新闻传播方式,便利了人与人之间的即时信息交流之余,也成为了网络谣言产生与传播的温床。社交媒体的谣言检测方法也成为了目前比较热门的一个研究方向,但谣言检测并不容易,目前最准确的谣言检测系统需要进行回溯型运算,严重影响了检测的效率。检测的延时导致了我们无法在谣言发布的同一时间就进行监控,使其有机会得到扩散,给人们生活和社会带来了严重的负面影响。此外,随着社交媒体的普及、用户的不断增加,社交媒体每天所产生的数据量之大也变得越来越难以估量。本研究发现随着处理数据量的增大,新话题检测系统的性能和准确率也面临着严峻的挑战。目前该领域的学者们都致力于提升新话题检测算法的性能使其能更好地适应对数据流的处理,却忽略了随着存储历史信息的空间饱和度的不断上升,系统计算出来的累计平均新颖度分数也呈新出持续衰变的趋势。而新颖度分数的偏差给新话题检测系统的准确率也带来了一定程度的负面影响。综上所述,本文将研究的重点主要集中在以下三个方面:第一,本文探索中西方传媒在内容和时间特性上的异同,揭示了中国网络新闻媒体在重大事件的新闻报道时间上的领先性,以及中西传媒在报道内容上的主观偏向性。本项研究主要通过话题检测与跟踪算法以及基于向量空间的近似度算法,对中西网络新闻媒体和社交媒体的四个数据流进行话题及重合度检测,并对检测出的数据进行定性和定量的分析。实验结果揭示了中西传媒在话题内容上的自中国向西方的兴趣偏向性,即中国媒体对西方话题的覆盖率明显高于西方媒体对中国话题的覆盖率,且该偏向性在涉及到与名人相关的新闻报道与讨论时表现的最为明显;第二,本文主要研究社交媒体数据流中的实时谣言检测方法。本研究证实现有谣言检测方法并不能胜任对社交媒体数据流中谣言的实时检测。利用本文提出的基于记忆的文字蕴涵Kterm Entailment算法与访问外部数据相结合的方法可从真正意义上实现社交媒体数据流中的实时谣言检测。为了弥补在早期谣言检测过程中基于回溯运算的谣言特征缺失,本文利用Kterm Entailment算法访问外部数据(如新闻报道)以检验消息是否被可信源所证实(即蕴涵度计算),提出以蕴涵度分数为代表的实时谣言检测特征集。本文还提出辅助检测的伪反馈特征,该类特征利用了重复信号的概念,能够自动计算消息文本与已判定为谣言的内容相似度。本文通过特征分析、检测性能、扩展性检验等多个实验证实了基于蕴涵度与伪反馈特征的实时谣言检测方法相较于其他各种检测方法具有更加优秀的实时检测性能;第三,本文还探索了处理数据流对新话题检测系统性能的影响,指出新话题检测系统中存在的新颖度衰变问题,在此基础上提出新颖度衰变经验模型,并通过实验验证了应用该模型对新话题检测系统准确率的提升。本文通过研究三个不同类型的新话题检测系统在数据流处理中的性能来探索数据规模对系统性能的影响,揭示了新话题检测系统的新颖度分数衰变现象。在此基础上,本文还探索衰变现象和空间饱和程度之间的关系,并揭示衰变对检测准确率的负面影响。通过对实验数据的拟合,本文提出了衰变修正模型,利用该模型可以为检测出的新颖度分数进行一个预期衰变值的补偿。经验证,实验结果表明采用衰变模型对新颖度分数进行补偿,可以显著提升检测性能。本文所研究的社交媒体谣言的实时检测方法,是一利用最新的大数据处理技术与传统的应用机器学习技术进行谣言检测的方法相结合的创新思路与方法,在实时谣言检测领域具有一定的前沿性,对于及时捕捉谣言,减少谣言传播的危害以及实时舆情检测与监控具有深远的意义。此外,本文在新话题检测系统的研究中所发现的新颖度衰变问题是该领域研究的一项重大发现,本文在该方向上的研究成果对于如何在数据爆炸的时代进行高效的话题检测与跟踪产生了积极的影响,促进了舆情分析的发展。
其他文献
我们应该对生活保持足够的信心,个体总期望达到他与环境的和谐,实现一个愿望,满足一次饮食,获得一本书,进一步抵达理想人生,有一个好工作、好朋友、理想家庭,试图找到一种理想的生活
(一)美国是联邦制国家,各个州享有很大的自治权,在政治体制上仿效合众国的做法:立法、行政、司法三权鼎立.立法机构即议会实行"两院制",一项立法议案一院通过后须提交另一院
情感教育作为一种先进的教育理念和有效的教学策略在小学课程体系中得到普遍重视和关注。情感教育对于学生整体素质的全面发展具有极为重要的作用。美术教育一方面是要让学生
经过连续十年蝉联世界产销辆第一的宝座,中国汽车市场毋庸置疑已经成为全球最大最重要的市场,销量超过第二名到第四名的总和,而且在可预见的相当长时间内,中国市场将继续维持世界第一的位置。但是,我们也应该看到阶段性的困境,2018年中国市场销量2808万辆,比2017年下降了5.8%,成为近三十年来的首次销量下降。一方面是汽车市场销量趋于饱和,另一方面国内各汽车厂商间竞争日益加大,国外品牌清楚意识到中国汽
宜君县高度重视环境污染和畜禽养殖的问题,联合多个部门,对养殖规模、废弃物处理方式和资源回收利用的情况进行了摸底调查。现笔者就调查结果做一个简要的分析。1 畜禽养殖现
“投资是一种由智力控制资本的工作,同时也是一个‘把企业当作商业’、体现‘技术+艺术’的过程,所以它是我喜欢并将为之奋斗的事业。”
GNSS导航定位技术是室外高精度定位的主要手段,在开阔环境中,GNSS信号不受遮挡,观测质量良好,利用RTK(Real-time Kinematic)等技术可实现厘米级动态定位,GNSS高精度定位技术
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
西方国家25至64岁妇女死于缺血性心脏病者占死亡总数的1/3。而妇女冠状动脉心肢病的危险因素较少论及。籍皇家通科医师学院对口服避孕药的研究,用队列资料,以1∶3套叠病例对
对于抄核收部门而言,其工作职责主要包括:电能表相关信息的采集和整理,核发以及计算等,以上内容属于电力系统重要构成部分,同时具有独立性的特点。在传统抄核收工作中,普遍以