面向电子商务的虚假评论识别研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:a3799222999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子商务的高速发展,越来越多消费者参与到在线评论互动中,由此产生了大量在线商品评论,并且数量呈爆炸式增长。然而巨大的用户群与潜在的利益关系,使虚假评论被广泛地制造与传播,导致了虚假评论的泛滥。大量的虚假评论会扰乱消费者的判断,使消费者做出错误决策,严重破坏了电子商务的秩序。因此识别并过滤这些虚假评论有着重要的理论价值及现实意义。  论文以大众点评网(http://www.dianping.com)的在线评论为基础,针对虚假评论识别问题开展研究,主要研究工作有:  (1)针对虚假评论识别中正负样本不平衡(真实评论数量要远多于虚假评论数量)导致识别效果不理想的问题,提出了虚假评论识别改进算法SMOTE-RF(SMOTE and Random Forest)。算法将SMOTE(Synthetic Minority Over-sampling Technique)过抽样算法和随机森林算法应用到虚假评论识别中,利用SMOTE算法重构训练集,使原先正负样本不平衡的数据平衡化,提高随机森林模型构建过程中Bootstrap抽样阶段抽中虚假评论样本的概率,以此减少正负样本不平衡引起的识别误差。实验结果表明,与其他虚假评论识别算法相比,SMOTE-RF算法的识别效果有较大的提高。  (2)深入研究了虚假评论的内容特点与虚假评论者异常行为特点,发现情感极性和用户行为等因素对虚假评论识别是有影响的,而已有虚假评论识别方法大部分没有考虑这些影响。针对这一问题,提出一个多维虚假评论特征模型。在情感极性算法中引入情感密度、情感稳定性来反映评论的情感表达异常程度,并结合评论文本相似度、用户评论频繁度、用户关注异常度等特征来全面刻画虚假评论。实验结果表明,情感极性和用户行为特征对虚假评论识别起到很大的作用,与其他虚假评论识别方法相比,加入多维虚假评论特征模型的SMOTE-RF方法具有较高的识别准确率、召回率及F值。  (3)深入研究了虚假评论的时空特征,发现真实评论与虚假评论在时空特征上存在差异性,针对现有虚假评论识别方法忽略时空特征对识别影响的问题,设计了一种基于时空轨迹点序列的异常行为模型TAR,并结合评论时间、评论比例、评论者注册地点及与商家距离等时空特征建立虚假评论特征模型。实验结果表明,时空特征模型对虚假评论识别起到较大的作用。与逻辑回归、SVM、朴素贝叶斯等方法相比,加入时空特征的SMOTE-RF方法具有更高的识别准确率、召回率及F值。
其他文献
本体作为一种共享的概念化模型,在人工智能、知识工程、信息检索和语义网等许多领域中发挥着越来越重要的作用。手工构建本体是一件繁琐辛苦的任务,需要耗费大量时间和费用,且需
学位
随着社交网络的快速发展,网友花费在社交网络的时间越来越多,同时也对社交网络的依赖也越来越强。社交网络在巨多用户支持的背景下,怎么留的住用户,怎么基于这些用户提供更好
近年来互联网的发展给人们的生活带来了很大变化,特别是现在Web2.0方式下人们有了更丰富方便的网上生活,而作为互联网主力军的电子商务网站也是赶着互联网大潮不断地上升发展。
随着软件行业的快速发展,软件的开发周期和开发成本越来越被重视,软件测试作为软件开发过程中的一个重要环节,不仅仅为软件产品提供质量把关,而且还能降低人力重复投入的风险
随着Web服务技术的快速发展和广泛应用,越来越多的Web服务分布在Internet上,与此同时,功能相似的Web服务数量也快速增长。单个Web服务的功能已经无法满足复杂应用的需求,因而
随着计算机技术的飞速发展,软件系统已经被广泛应用到人们工作生活的各个领域,人们对软件可靠性的要求越来越高,因此软件可靠性的研究已成为计算机发展的新方向。UML作为面向对
随着WebGIS的快速发展和应用,其数据可视化处理中的静态缓存技术也被广泛的采用。然而在静态缓存处理中所产生的海量瓦片数据,给数据管理带来沉重的负担,而目前对于此类数据
生物特征识别技术如今在人们的生产、生活等社会活动中扮演着越来越重要的角色,对身份识别的贡献尤为突出。掌纹特征因其稳定、独特、准确、可靠的特性引发了广泛关注。尽管
全球IPv4地址已经于2011年全部分配完毕,IPv6作为下一代互联网的核心走上历史的舞台。IPv6技术采用了新的网络理念,提供了近乎无穷的地址空间的同时,还提高了网络的安全性、