论文部分内容阅读
近年来随着我国电子商务产业的快速发展,人们对于网上购物的依赖程度也越来越大。年轻消费者对于消费的习惯和认识早已不再是单纯的线下购物,现如今线上购物已经成为大多数年轻人购物的首选方式,他们享受着这种便捷的购物体验。然而,我国现阶段电子商务市场发展仍存在一些严重的问题,如由于电子商务市场本身的特点导致其进入门槛低,大量商铺良莠不齐;店家与消费者信息不对称导致的交易争端亦屡有发生;交易过程的时间空间相隔绝导致信息获取不全面;物流和商流隔绝导致整个交易涉及多个行业利于舞弊等。当前,与我国电子商务蓬勃发展相对应的是与之相匹配的网络交易诚信体制并未完全建立和完善。这就导致了一些不法商家利用电子商务市场的这一特点大量刷单,从而提高自己的店铺信用分和自己商品的销售量的行为发生。这些虚假信息严重影响了人们的购买决策,给社会和市场带来的是极其恶劣的影响。虚假交易特别是虚假好评的识别有利于消费者个人提高自我识别能力,节约成本;有利于维护和规范化电子商务行业健康发展。本文在对国内外一系列网络交易虚假评论识别研究成果的整理和梳理的基础上,分析了商家刷单从产生到具体实施的整个过程和交易特点。并依据这些特点,首先利用分布式爬虫技术获取的大量产品评论,并就手中预先掌握的部分刷客信息作对比;其次从大量商品评论中挖掘出刷单数据并对数据集进行了标注;然后以产品评论的特征集作为切入点,使用了基于深度学习的深度置信网络算法分析和识别电商交易结果即商品评论的可信程度;最后通过验证模型的准确性并对比其他浅层机器学习算法,发现深度置信网络对于评论数据的识别准确率显著高于其他浅层机器学习算法,并根据模型识别的结果分析了正常消费者的评论特征。本文的主要贡献在于:(1)以商品评论数据为突破口,挖掘消费者商品评论的语言特征。以评论数据作为突破口,可以有效刻画消费者评论数据的语言特点,并期望从中发现正常消费者在评论商品时的语言特征。(2)基于深度置信网络算法,能够有效识别电子商务虚假评论。以往研究多使用计算机模拟虚假评论的发生,本文使用了基于python的爬虫技术获取海量真实用户评论数据,并运用深度置信网络算法识别刷单评论。