论文部分内容阅读
随着互联网技术的进步,人们获取新闻的方式也随之发生改变,更倾向于通过网络平台获取新闻信息。网络新闻同传统的新闻相比有着较快的更新和传播速度,此外新闻的发布平台也更加多样化,在为人们带来便利的同时也使得新闻的真实性无法确定。虚假新闻具有较强的影响力,如果人们误信并进行传播,轻则造成群众的误解引发负面情绪,重则将会影响社会稳定。因此本文研发了网络虚假新闻检测系统,辅助新闻机构和媒体平台及时识别虚假新闻,阻止虚假新闻的传播,降低其影响力,从而达到维护社会稳定,促进社交网络健康发展的目的。本文仔细分析了国内外关于虚假新闻检测的研究现状,发现在特征选择方面,大多数研究提取的都是一些比较浅显的基于统计的特征,而忽略了新闻文本自身的特征。因此本文在原有的特征基础上,提出了基于文本内容自身的情感倾向性,虚假相似性特征、以及评论的情感类别特征,将提取的特征进行集成,作为SVM模型的输入特征训练分类器,实现对虚假新闻的识别。本系统实现的主要功能模块是新闻数据和评论数据的获取、新闻数据的检索与分析、网络新闻的虚假性检测、虚假新闻数据可视化。在本系统中,首先通过TextRank算法对文本进行主题词提取,根据主题词找到对应的虚假新闻文章;其次使用余弦相似度算法计算待检测新闻文本与相应虚假新闻文本的相似度,提取出新闻文本的相似度特征;然后需要对新闻文本和评论进行情感分析,提取出新闻文本的情感倾向特征以及评论的情感类别特征;最后将提取出的新闻文本特征、评论的特征以及基于统计的用户特征构造成特征向量,并对SVM分类器中c和gamma进行优化,使用优化后的值对数据进行训练得到检测模型,在系统中使用该模型对新闻数据进行检测,从而实现对虚假新闻的识别。