论文部分内容阅读
随着全球电子商务的飞速发展,电商平台交易市场不断扩大。用户在电商购物平台进行的商品评论信息已经成为其他消费者购买各种商品的重要决策依据。目前大多数的电商购物平台只专注于处理有问题的评论信息,并没有从根本上杜绝卖家继续操作更多的虚假评论进行炒信刷单的行为。本文提出一种基于时间域异常检测的方法,预测参与炒信刷单的商品,为电商平台带来更好的用户体验。从而杜绝商家之间的不正当竞争,保护电子商务平台正常经营商家的权益。本文的主要研究内容如下:(1)商品评论数据的获取与处理。使用Python爬虫框架获取电商购物网站的商品评论数据,并且进行数据的清洗及存储工作。目的是获取实验所需的商品评论数据,使用数据分析方法对网站的商品评论数据进行深入的特征研究。(2)对商品的评论数据进行探索性分析。通过分析爬取到的商品评论数据分布,包括商品的评论数量分布、评论的打分分布、商品评论数的总体分布以及单个商品评论数的分布等。从数据分析的角度得到参与炒信刷单的商品和正常商品不一样的评论数据分布。(3)对商品评论数据构建数据集并进行量化处理。对用户的商品评论数据进行向量化处理,目的是通过爬取的数据集建立时序特征,把爬取到的商品评论数据进行量化描述,为数据的建模做准备工作。(4)基于迭代的孤立森林思想提出一种新颖的异常检测模型。通过借助商品的历史评论数据的分布变化,构建孤立树和孤立森林,并且不断更新孤立森林的参数。从而可以借助孤立森林的思想,判别出行为模式与正常商品评论数据分布不同的商品,从而准确定位异常样本点,检测参与炒信刷单的商品。(5)在真实的数据基础上对实验进行比较。在真实数据集上证明本文提出的异常检测模型的有效性。并且通过研究不同参数设定下模型效率的对比,证明本文提出的异常检测模型的实用性和高效性。本文旨在将商品交易信息量化,利用时间域数据异常检测的思想对商品评论数据进行量化处理并建模,利用孤立森林算法得出商品的异常得分值,从而更快更准确的检测商品是否存在刷单行为。本文使用的数据是真实的亚马逊数据集,提出的异常检测算法在炒信刷单商品研究中取得了90%以上的准确率,而效率也达到了能在10秒内检测上万个商品是否进行刷单行为,优于现有的其他异常检测方法。