基于深度学习的虚假评论检测算法研究

来源 :福州大学 | 被引量 : 0次 | 上传用户:abc0454
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的飞速发展,电商等数字服务经济加速进入发展的快车道,人们的生活越来越贴近数字化的生活方式,商品或服务的评论也逐渐成为个人用户和商业组织的重要参考,商品或服务正面的积极评论能够为个人或企业带来更高的经济效益和良好的口碑,相反则能沉重打击竞争对手,由此也衍生出发布虚假评论的黑色产业,并且发展十分迅速,因此虚假评论检测是一个重要且急迫的研究课题。基于传统学习方法的虚假评论检测存在特征工程提取类别特征困难,效果不佳的问题,而现有的基于深度学习的虚假评论检测受限于标记数据的匮乏,人工数据标记成本高昂,且人工识别准确率较低,导致训练困难,过拟合现象严重,此外仅从评论文本本身判断评论是否为虚假评论存在一定的偏颇。针对以上问题,本文主要从以下两个方面进行了研究工作:1)为解决虚假评论标记数据集匮乏,对虚假评论进行人工标记困难且准确率较低的问题,提出了融合Transformer的生成对抗网络(GAN),利用有限的少量标记数据集,以及大量的未标记数据集,训练一个GAN来生成训练中所需要的大量标记数据,以尽可能拟合真实数据的样本空间,避免过拟合,提高模型泛化能力。由于文本的采样不连续,梯度无法反向传播,故在GAN中使用强化学习对生成器进行训练,为了能够更深层次的挖掘文本的语义信息,鉴别器和分类器均采用基于Transformer的网络结构,鉴别器与分类器的分类结果将会组合成为强化学习中的奖励,进而指导生成器进行训练。2)为避免仅从评论文本本身判断评论是否为虚假评论,使分类器能够从更多的维度参考信息进而更为准确的进行分类,本文引入主题信息。首先对输入的样本数据经过编码后在主题方向上进行正交分解,获得评论中平行方向的主题信息和评论中垂直方向的除主题以外的其他信息,随后采用注意力机制,使评论向量分别从平行方向和垂直方向进行注意力匹配,合并后得到融合主题特征的评论表示,增强分类器的分类性能,此外还能帮助生成器生成与主题更为相关的评论,提高生成器的生成质量,而引入的谱归一化则能够使得GAN的训练更加稳定。为验证模型的性能,本文基于少量旅馆标记数据集和大量旅馆未标记数据集设计了多组对比试验。实验结果表明,利用GAN生成大量的标记数据能够显著缓解深度学习中标记数据稀少而产生的过拟合问题,谱归一化则帮助GAN更稳定的训练,而引入主题信息则能够更好的指导分类器进行分类,提高分类性能。
其他文献
选址的研究内容非常广泛,从城市规划、机场建设到配送中心、零售店的位置决策都是选址研究的范畴。随着当代社会发展和智慧城市建设,商家选址成为市总体规划中的重要一环。商家选址关系着城市商业的繁荣发展,关系着商家的经济收益,直接影响进店客流、服务内容和运营成本。因此,科学合理的选址对商家而言至关重要。早期获取数据的途径和数量有限,选址决策易掺杂着主观因素,导致准确率不高。随着互联网的发展,可以通过多种途径
学位
电能是人类生产实践活动中至关重要的能源。随着社会工业化地不断发展,人们对电力资源的需求日益增加,与此同时,窃电行为造成的损失也在不断增加。因此,窃电行为检测对于规范用户用电行为,提高企业管理水平和经济效益具有重要意义。传统的反窃电技术存在耗费人力物力大、误报多、效率低等问题。随着智能配电网和大数据技术的发展,通过将大数据技术应用于窃电检测系统可以显著地提高电力公司在进行反窃电工作时的效率。论文根据
学位
进入信息时代,许多事物可以被数据化,形成一个个数据实体。复杂网络作为这些数据实体以及实体间联系的抽象表示,有着许多现实应用,如交通运输网络、生物蛋白网络和社交关系网络等。复杂网络形式多样,如具有节点特征的属性网络、具有不同类型节点和边的异构网络等,给复杂网络的分析带来更大的挑战。社区结构是复杂网络的重要特性,描述了网络中节点在空间上的聚集性以及在特征上的相似性。社区发现旨在挖掘网络中的社区结构,从
学位
数字图像在传输过程中无法避免会遇到图像退化现象,使用图像复原技术作为数字图像的预处理是一个非常有效且重要的环节。图像复原的目标是一个将退化图像恢复成原始图像的过程,这一过程事实上是求解病态逆问题的过程。基于非局部自相似性的图像复原已被证明是有效的图像复原技术,但是如何将图像块更好地划分开来是图像复原效果好坏的关键。通常使用聚类算法来实现对图像块的划分,因此如何提升聚类的精度也是提升图像复原能力的研
学位
许多现实世界的系统都会产生结构化的数据,而结构化数据的知识发现需要使用由节点与节点之间的连接构成的网络数据。在一些真实场景,例如社交网络、通信网络以及金融交易网络中,这些结构化数据通常是动态变化的,即网络中的节点或者边会随着时间的推移而动态地演变。时序信息是动态网络的重要组成部分,反映了网络结构的演化机制。以社交网络为例,它的拓扑结构随着新用户的增加、好友关系的建立和解除而不断发展。对既有演变规律
学位
聚类旅行商问题(CTSP)是旅行商问题(TSP)的一个重要扩展问题,在路径规划领域吸引了许多的研究者关注。给定带边权的无向完全图G=(V,E),其边代价满足三角不等式,顶点集V被划分为几个簇,问题的目标是计算一条访问所有顶点的代价最小的哈密顿回路,并且每个簇中的顶点都被连续访问。在许多的实际应用中,往往需要考虑一些其他因素的制约,因而产生了 CTSP问题的一个重要变体—广义聚类路由问题(The G
学位
文本情感分类旨在挖掘和分析文本中的态度、观点等主观信息以判断文本情感倾向性,是自然语言处理领域的热点研究问题之一。目前,研究学者们构建了一系列基于深度神经网络的情感分类模型,取得了瞩目的成果。尽管如此,仍然存在一些问题:以往方法未充分考虑文本中单词歧义性对情感分类的影响;已有方法难以捕捉输入文本单词与句子的多重语义信息;现有模型中长短期记忆网络训练速度较慢。本文围绕上述问题展开研究,具体可分为如下
学位
多轮对话模型能够根据对话上下文信息给出最契合对话上下文的回答,在个人助手、智能客服、教育辅导等领域都存在广泛的应用。如何根据对话上下文信息给出准确的回答是多轮对话模型研究的关键点,现有模型存在关键信息难以提取、句子粒度信息不够丰富、对话上下文长期依赖难以捕获等问题,限制了多轮对话模型效果的提升。针对上述问题,本文的主要研究内容如下:1)现有的多轮对话模型存在未登录词频繁出现、句子粒度信息不足导致语
学位
随着信息技术的高速发展及其在各个领域的广泛应用,人们需要面对大规模、结构复杂、高维度的数据,如:图像视频数据、生物信息数据、文本数据和web数据等。预处理是数据处理的关键步骤,在数据的预处理过程中,通常将数据利用降维技术转化为矩阵或者向量表示方式,这种预处理方式会导致数据结构被破坏,导致特征信息的丢失。获取数据蕴含信息的关键是充分利用数据的结构。面对大规模、复杂、高维的数据,向量和矩阵表示方式已经
学位
图像全景分割是近年新的图像分割领域的研究方向,统一了语义和实例分割,是图像分割中较为全面的任务。不同于语义分割和实例分割,全景分割是逐像素的分配语义类别和实例标识,能够实现语义和实例类的统一分割。自2012年深度学习被验证在计算机视觉领域比传统方法更有效果后,深度学习的自动提取特征以及学习能力,在图像全景分割任务中陆续得到应用并取得进展。然而对复杂全景分割在统一了语义和实例分割任务后,仍会出现语义
学位