面向社交媒体的虚假评论检测研究

来源 :福州大学 | 被引量 : 0次 | 上传用户:liongliong462
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络虚假评论检测研究旨在从海量互联网评论数据中识别水军发布的虚假评论,是自然语言处理领域的重点研究课题之一。现有方法主要利用文本特征和用户行为信息实现虚假评论检测,取得了较大的进展,但仍存在诸多挑战如:以往的方法在文本特征提取过程中,难以关注到文本中的关键词语义信息;现有的模型存在训练效率低且分类精度不足的问题;已有的方法未考虑水军评论的群体共性特征,导致模型性能受限。针对以上问题,本文进行了如下三个方面的工作:(1)针对现有方法忽视了不同单词在虚假评论检测任务中具有不同的重要性,本文提出一种融合注意力机制的虚假评论检测方法。该方法首先利用双向循环神经网络学习评论词的语义信息,获取带有全局信息的文本特征表示,同时引入注意力机制对关键特征权重进行更新,最后通过一层胶囊神经网络学习完整评论文本的特征表示用于虚假评论检测。实验结果表明,该模型相对于基准模型在Hotel领域的F1值和Accuracy分别提升了6.7%、2.1%,Restaurant领域分别提升了3.5%、1.8%。(2)针对现有模型存在内存消耗大,训练时间长,且分类时难以支持类别特征等问题。本文提出一种基于Light GBM的集成分类虚假评论检测模型。该方法融合了文本特征和用户交互行为特征来构造整体评论特征表示,并输入到基于Light GBM的集成分类模型,实现浮点特征离散化进行分类预测,极大提升了模型效率,使训练速度提升近10倍,内存消耗降为基准的1/8;同时采用带深度限制的leave-wise生长策略实现叶子节点增益最大化,实现分类精度进一步提升。实验结果表明,该模型相对于基准模型在Hotel领域F1值和Accuracy分别提升1.8%、0.4%,Restaurant领域分别提升0.8%、0.5%。(3)针对现有方法未充分考虑水军群体性特征对虚假评论检测任务的影响,本文提出一种融合群体性用户行为特征的虚假评论检测模型。该方法在离散用户行为特征基础上,引入共同评论数、频繁项集和水军群组等群体共性指标构造群体行为特征,增强用户行为特征表示,并结合文本特征获得整体评论表示向量,输入集成分类模型得到分类标签。实验结果表明,融合群体共性特征的评论表示具有更好的分类检测结果。相对于基准模型在Hotel领域F1值和Accuracy分别提升了1.2%、1.0%,Restaurant领域分别提升2.1%、1.1%。
其他文献
聚类旅行商问题(CTSP)是旅行商问题(TSP)的一个重要扩展问题,在路径规划领域吸引了许多的研究者关注。给定带边权的无向完全图G=(V,E),其边代价满足三角不等式,顶点集V被划分为几个簇,问题的目标是计算一条访问所有顶点的代价最小的哈密顿回路,并且每个簇中的顶点都被连续访问。在许多的实际应用中,往往需要考虑一些其他因素的制约,因而产生了 CTSP问题的一个重要变体—广义聚类路由问题(The G
学位
文本情感分类旨在挖掘和分析文本中的态度、观点等主观信息以判断文本情感倾向性,是自然语言处理领域的热点研究问题之一。目前,研究学者们构建了一系列基于深度神经网络的情感分类模型,取得了瞩目的成果。尽管如此,仍然存在一些问题:以往方法未充分考虑文本中单词歧义性对情感分类的影响;已有方法难以捕捉输入文本单词与句子的多重语义信息;现有模型中长短期记忆网络训练速度较慢。本文围绕上述问题展开研究,具体可分为如下
学位
多轮对话模型能够根据对话上下文信息给出最契合对话上下文的回答,在个人助手、智能客服、教育辅导等领域都存在广泛的应用。如何根据对话上下文信息给出准确的回答是多轮对话模型研究的关键点,现有模型存在关键信息难以提取、句子粒度信息不够丰富、对话上下文长期依赖难以捕获等问题,限制了多轮对话模型效果的提升。针对上述问题,本文的主要研究内容如下:1)现有的多轮对话模型存在未登录词频繁出现、句子粒度信息不足导致语
学位
随着信息技术的高速发展及其在各个领域的广泛应用,人们需要面对大规模、结构复杂、高维度的数据,如:图像视频数据、生物信息数据、文本数据和web数据等。预处理是数据处理的关键步骤,在数据的预处理过程中,通常将数据利用降维技术转化为矩阵或者向量表示方式,这种预处理方式会导致数据结构被破坏,导致特征信息的丢失。获取数据蕴含信息的关键是充分利用数据的结构。面对大规模、复杂、高维的数据,向量和矩阵表示方式已经
学位
图像全景分割是近年新的图像分割领域的研究方向,统一了语义和实例分割,是图像分割中较为全面的任务。不同于语义分割和实例分割,全景分割是逐像素的分配语义类别和实例标识,能够实现语义和实例类的统一分割。自2012年深度学习被验证在计算机视觉领域比传统方法更有效果后,深度学习的自动提取特征以及学习能力,在图像全景分割任务中陆续得到应用并取得进展。然而对复杂全景分割在统一了语义和实例分割任务后,仍会出现语义
学位
随着信息时代的飞速发展,电商等数字服务经济加速进入发展的快车道,人们的生活越来越贴近数字化的生活方式,商品或服务的评论也逐渐成为个人用户和商业组织的重要参考,商品或服务正面的积极评论能够为个人或企业带来更高的经济效益和良好的口碑,相反则能沉重打击竞争对手,由此也衍生出发布虚假评论的黑色产业,并且发展十分迅速,因此虚假评论检测是一个重要且急迫的研究课题。基于传统学习方法的虚假评论检测存在特征工程提取
学位
全局光照一直是计算机图形学领域中一个热门的话题,其主要研究光线在场景中传输过程以及与物体表面的交互过程。光线传输的发展致力于在影视制作,艺术仿真,游戏制作等中带来更加真实的画面效果。在游戏制作过程中美术一般要对场景中的材质、灯光等参数进行反复调优,如此才能达到一个让人满意的画面,而我们可以通过光线传输模拟算法来渲染游戏场景的静态画面以作为参考,为美术提供一个渲染目标进行比较,这对于调试游戏场景中的
学位
随着人工智能的大力发展,图像智能技术被普遍运用于我们日常生活和工作中,而图像智能应用是强依赖于输入的图像质量,图像去噪经过移除图像噪声能够有效地提高图像质量。本文对传统的基于非局部自相似性图像去噪算法和基于卷积神经网络去噪算法展开研究,主要的研究内容如下:(1)图像去噪算法中基于非局部自相似性的算法存在不足之处:在全局匹配相似图像块矩阵的时候并非所有的图像块都能匹配到相似图像块,对于细小纹理图像块
学位
能从文本中自动创建一个或多个文本文档的简明摘要,该技术以最小化冗余率,且最精简的语言提炼文本信息为目标,使用户能够在巨大的信息资源中获得重点,提升阅读效率。现有的文本摘要模型可分为抽取式文本摘要模型与生成式文本摘要模型。抽取式文本摘要模型对原文中句子的重要性建模,选择能够代表原文中心含义的句子作为摘要。而生成式文本摘要模型按照原文中表述的语义,由语言生成技术自动生成文本的摘要。得益于近几年来深度学
学位
逆光车牌图像修复是智慧交通领域中具有挑战性的研究问题之一。受太阳光反射的影响,车牌识别系统所采集到的车牌图像被光斑遮挡,造成车牌信息丢失,使得车牌识别系统的识别准确率下降。因此,逆光车牌图像修复的研究将有助于车牌识别技术的实际应用推广。与传统的计算机视觉方法相比,深度学习技术具有处理复杂模式的强大能力。目前,车牌识别系统大多是使用多设备或者通过控制拍摄条件进行多图像的采集,进而筛选出无逆光或逆光影
学位