面向多领域的虚假评论识别研究

来源 :武汉大学 | 被引量 : 0次 | 上传用户:niujicun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子商务的发展,越来越多的个人和商业组织开始阅读和参考在线评论来做出购买决策。积极的评论可以为企业和个人带来显著的经济收益和名声,这为虚假评论的产生提供了强大的动力。在过去几年中,虚假评论的问题已经变得极为普遍,因此虚假评论检测是一个紧迫而且重要的话题,它对于确保网络平台上信息的可信度至关重要。基于此,本文进行了如下两项任务:1)针对虚假评论识别任务中传统离散模型难以捕捉到整个评论文本的全局语义信息问题,提出了一种基于层次注意力机制的神经网络模型。首先,实验地探讨了不同神经网络结构对评论文本的篇章结构建模,即哪种神经网络模型能够获得最好的篇章表示;然后,基于用户视图和产品视图的两种注意力机制对评论文本进行建模,用户视图关注评论文本中用户的偏好,而产品视图关注评论文本中产品的特征;最后,将两个视图学习的评论表示拼接,作为预测虚假评论的最终表示。以准确率Accuracy作为评估指标,在Yelp数据集上做实验。结果表明,所提出的层次注意力机制的神经网络模型表现最好,其准确率超出了传统离散模型和现有的神经网络基准模型1至4个百分点。因此,所提方法能够获得更优性能。2)针对跨领域虚假评论识别性能不佳问题,提出了一种基于对抗训练的跨领域的虚假评论识别模型。首先,基于三个领域(hotel、restaurant和doctor)的混合数据集,采用不同的机器学习模型对评论文本进行建模,验证所提模型的有效性;其次,分别基于每个领域的数据集,进行了跨领域的虚假识别研究,即用其中一个领域的数据训练模型,验证在其他两个领域上的分类性能。具体地,首先在输入词向量上产生扰动,然后将其输入LSTM模型进行对抗训练,最后输出一个最终预测。结果表明,所提模型在三个领域的混合数据集的结果超出了之前的模型,且在跨领域的虚假评论任务上具有更好的泛化能力。
其他文献
三峡水库建成完工后,采取“冬蓄夏排”的水库调水方式,形成了垂直落差达30 m的大型水库消落带。在这种特定的水文节律下,由于大部分原有植物不能忍受长时间高强度的反季节淹
随着办公建筑面积占寒地城市建筑面积比重不断增加,办公建筑耗能所占比重不断增大。因此,寒地办公建筑节能设计已成为当下节能设计过程中亟待解决的问题。由于办公建筑设计方
现在,中国的中小企业正处于转型升级阶段,对企业的信息化需求越来越强烈,企业对自己的管理水平要求也越来越高。本文将支持私有云集群部署的中小企业ERP软件架构设计作为研究
时域有限差分算法(Finite-Difference Time-Domain,FDTD)在计算电磁学领域得到了广泛研究与应用,已经发展成为一种成熟的解决现代工程电磁问题的方法。但随着FDTD算法应用领域的深入以及应用范围的扩大,电磁问题的仿真复杂度和仿真尺度成倍增加,出现了一些新的问题与挑战。为解决仿真尺度增加所带来的计算资源不足问题,提高计算效率,最常用方法是使用并行运算。然而作为当前并行运算主
物理不克隆函数(Physically Unclonable Functions,PUFs)因集成电路不可控的随机工艺制造差异具有不可预测、无法克隆的特性,可以用于密钥生成与安全认证。PUFs响应中存在随机噪声,为了确保每次生成的密钥完全相同,模糊提取算法被广泛应用。在模糊提取算法中,密钥生成需要随机数。然而,传统的模糊提取算法框架对随机数的处理存在不足:一是外部注入随机数存在被记录的安全隐患;二是
大数据时代,随着POI数据量的急剧增加,以及导航数据采集更新方式的快速发展,传统车厂导航软件存储容量已不能支持千万级的POI数据量。基于大数据统计分析,对车载导航数据中的
UAF(Use-After-Free,释放后使用)漏洞作为堆内存漏洞的一种,能够单独利用或结合其他堆栈漏洞进行联合利用,造成数据泄露、篡改及控制流劫持等严重危害。对于静态检测,由于存
气体燃料再燃是一种高效的减少NOx排放的技术,在降低NOx排放的同时,还减少对化石燃料的消耗,保护环境。论文以660 MW亚临界燃煤锅炉为研究对象,利用Fluent软件进行数值模拟,
能源危机与环境危机是21世纪人类面临的两大重要挑战。利用光催化转化CO2为碳氢化合物的技术,不仅可以减少大气中CO2的含量,还可以将太阳能转化为太阳能燃料。近年来,新型催
本文研究是以DPD工业园区的发展为例,将DPD工业园区的实际发展情况与现代管理学中最为经典的理论相结合,寻找出DPD工业园区现在存在的各种主要问题以及影响DPD工业园区发展的