面向互联网观点的垃圾评论检测关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:bj20089
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社交媒体的快速发展,来自互联网的评论观点,越来越多地影响着组织和个人的购买决策制定、选举投票和市场产品设计等事宜。对于商业和个人,正面的评论观点常常意味着更高的利润和更好的口碑。然而,不幸地是,基于对于利润和市场的追逐,在商业性评论网站上也出现了越来越多的虚假评论或虚假观点(统称垃圾评论)。如何有效地检测出垃圾评论,保护用户利益,维持评论网站信誉度,成为了工业界与学术界都亟待解决的问题。由此,垃圾评论检测任务应运而生。  垃圾评论检测是观点挖掘领域中的一个重要任务。广义而言,垃圾检测技术在众多领域都有相关研究。相比于垃圾网页检测与垃圾邮件检测,垃圾评论检测难度更高。这是由于垃圾评论,尤其是那些旨在对目标产品或服务进行推销的评论,往往是高度隐性的。这些评论通常伪装成了来自于真实用户的诚实评论。人们很难单一地从评论文本入手来区别垃圾评论与正常评论。因此,现有大量前人工作从评论文本与用户行为两方面数据出发,寻找能够指示垃圾评论的可疑性线索,提取有效文本特征与用户行为特征,用此两类特征来表示目标评论,进而依靠统计模型来检测垃圾评论。现有工作通过实验证明,在检测垃圾评论的任务中,用户行为特征要比评论文本特征更为有效。然而,现有研究工作将主要精力放在了特征工程上。其中存在着特征提取依赖专家知识、特征提取依赖丰富信息无法解决冷启动问题、无法动态选择重要特征等问题。  本论文针对现有研究工作中存在的缺点,从用户行为信息入手,面向互联网观点数据,展开研究垃圾评论检测关键技术,研究成果主要包括:  1、针对传统统计特征提取过程中,存在的过度依赖于专家知识、先验假设的问题,提出了一种基于张量分解的用户行为表示学习方法。该方法不依赖于专家知识,直接从数据层面出发,利用多关系全局信息自动联合学习用户的行为表示以及所评价的产品表示。具体地,本文在未作出任何垃圾嫌疑倾向性假设的前提下,定义了两类基础关系,在此基础上,本文分别从时间、空间、社交等维度记录了两个实体之间的比较信息,共衍生出11种具体的关系。为进一步联合运用多关系信息,并用隐含的方式表示评论(评论者表示+产品表示),采用基于上面提到的11种关系的张量分解方法,在多关系之间应用全局性的损失函数,来更充分地联合学习评论者与产品各自的信息表示。实验结果表明,该方法学习到的评论表示要比传统统计特征更为有效,使得该任务中垃圾评论的表示摆脱了对于专家知识的依赖,展现了较强的鲁棒性和领域适应性。  2、针对传统统计特征提取过程中,存在的依赖丰富行为信息从而导致无法解决冷启动的问题,提出了一种基于图结构与卷积神经网络的模型。该部分研究工作在该领域内,第一次尝试量化分析并处理传统垃圾评论检测滞后所带来的冷启动问题。具体地,该部分工作通过实验量化分析证明了,传统统计特征需要建立在用户丰富的行为记录的基础上;而对于那些只发布了一条评论的新用户而言,基于传统统计特征的系统无法对其及时做出检测判定。因此,传统特征方法无法处理冷启动状态下的垃圾评论检测任务。该工作所提模型将评论系统中的评论文本信息与用户行为信息联合编码,寻找与新用户评论文本信息相似的老用户,进而将其行为信息用来补充增强新用户不足的行为信息,以此检测垃圾评论。实验结果表明,相比于传统统计特征,该方法能够有效地及时地检测冷启动状态下的垃圾评论。  3、针对现有工作过度关注于特征工程,而在特征提取后无法动态地选择重要特征的问题,提出了一种基于双向关注机制的神经网络模型。垃圾评论中存在用户行为特征可疑的评论、文本特征可疑的评论、以及文本与用户行为特征皆可疑的评论。前人工作将重点放于特征工程上,提取特征后直接应用现有模型算法。这些模型算法训练后所得权重矩阵对于每一个检测数据都是静态不变的。但对于只有用户行为特征可疑的评论而言,所联合利用到的正常文本特征反而成为了噪声数据,反之亦然。此时该静态权重矩阵即为一种全局性妥协的训练结果。该部分工作通过在神经网络中加入关注模块,使得模型能够为每一个数据学习一个动态的特征关注权重,进而更细粒度地分析判别垃圾评论为用户行为特征可疑或文本特征可疑。实验表明,基于双向关注机制的神经网络模型能够因评论而异地动态选择对检测有利的重要特征,更为充分地联合利用文本特征与用户行为特征,从而更有效地检测垃圾评论。
其他文献
近年来,随着计算机图形学的发展和计算机处理能力的提高,人们在计算机上建立了各种模型来动态描述作物的发芽、生长、死亡等全部过程已经成为一种可能。然而,到目前为止,由于作物
随着信息技术的发展以及以卫星、飞机等作为平台的图像遥感愈加普遍,自然场景图像的分析与重构技术得到极大的研究与发展,在环境、资源、矿产、灾害监测、军事等领域获得了广
学位
随着信息化进程不断深入各行各业,在人们的日常生活和工作中网络正发挥着越来越重要的作用,已经是现代人生活不可缺少的一个重要组成部分。为提高影响力,各级政府和企事业单
近年来机器人大赛在国内受到广泛的关注和欢迎,各高校和单位都以此为契机,为本校的机器人爱好者提供一个良好的动手操作平台,展现自己学校科研能力的舞台。但从整体上看,我国
现代高技术条件下的局部战争中,装备保障系统的地位越来越重要。在装备执行作战、训练任务的过程中,装备保障的好坏直接关系到其效能的发挥。装甲装备是我陆军主战装备之一,凭借
三维物体识别是计算机视觉重要分支之一,已经被广泛应用于生物医学、遥感遥测、工业检测、航空航天等领域。目前,三维物体识别技术主要是在建立目标图像的数据库的前提下,从
随着科学技术的飞速发展,研究人员所收集到的数据高速增长,体现在数据数量上的提高和维度上的增长。传统的统计学和机器学习方法可以很好的应对数据数量的增长,但是没有办法解决
日益严重的荒漠化已经成为全球范围内环境问题的焦点,而其中草场荒漠化的现象更为突出,本文对草场荒漠化的关键因素及驱动机制进行了建模分析,模拟展现了草场荒漠化过程中的突变
自适应动态规划(Adaptive Dynamic Programming,ADP)结合了现代控制理论中的最优控制和自适应控制、计算智能中的人工神经网络以及机器学习中强化学习的思想,可以解决传统动态
四足机器人机动性高、环境适应性强,在灾难救援及特种作战等领域具有重要应用价值。其数学模型具有非线性强耦合的特点,建模及控制难度大,特别是在未知不确定环境中运动时,四足机