电子商务中基于深度学习的虚假交易识别研究

来源 :现代情报 | 被引量 : 0次 | 上传用户：conansmh

【摘要】

：

【作者】

：

刘畅殷聪

【出处】

：

现代情报

【发表日期】

：

2016年10期

【关键词】

：

电子商务虚假交易深度学习多层感知器交易记录商品评论识别方法 e-commerce fraud transaction deep learning

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　〔摘要〕为了解决电子商务平台中存在的虚假交易问题，本文依据商品的销售记录以及商家的基本信息，提出了一种结合深度置信网络和多层感知器的虚假交易识别方法，通过识别出以通过刷单增加销量的商品来识别虚假交易。首先利用深度置信网络对交易特征进行学习，得到更高层次的抽象特征；然后利用多层感知器进行分类任务，从而识别出虚假交易。从淘宝中爬取商品的交易记录和评论数据进行实验验证，与其他机器学习模型的实验结果进行对比，其性能有明显的提升。
　　〔关键词〕电子商务；虚假交易；深度学习；多层感知器；交易记录；商品评论；识别方法
　　DOI：10.3969/j.issn.1008-081.016.10.010
　　〔Abstract〕For solving the problem of fraud transaction in e-commerce platform，a method that combined Deep Belief Networks and Multilayer Perceptron based on the transaction records and review records of Products was put forward.Through recognizing the product which was increased sales in fraudulent transactions to recognize the fraud transactions.The features of transaction were learned by DBN to get the higher level of abstract features，and the MLP performed the classification task.Tested by experiments using the transaction records and review records of products crawled from Taobao，the comprehensive performance had improved significantly compared with the other machine learning model.
　　〔Key words〕e-commerce；fraud transaction；deep learning；MLP；transaction records；product review；recognition method
　　目前我国电子商务市场发展迅速，已超越美国成为全球第一大网络零售市场。据浙江省商务厅发布的《浙江省网络零售业发展报告》显示，2014年仅浙江一省的淘宝店铺数量已达到147万家。商品的高度同质化、流量分配不均、商家信誉差异大等因素不仅使广大消费者难以选择合适商品，也使得商家之间的竞争越来越激烈。影响淘宝搜索排名因素主要有动态评分、收藏人气、销量、浏览量等，但是由于淘宝网有大量的新开网店没有实际的销量作支撑，也没有足够的广告推广预算，很难在庞大的淘宝网店中生存。为了快速有效地解决这个问题，就催生出了一种虚假的网上交易模式——以虚假交易的形式提高商品和店铺的搜索排名。淘宝店铺为了提高网店或单件商品的搜索排名，达到销量火爆好评如潮的目的而采取了作弊行为。在没有被发现和惩罚的情况下，虚假交易确实能给网店，特别是新开的网店带来一系列好处。第一，可以通过虚假交易提升店铺整体信誉，从而吸引消费者。第二，提升商品销量。消费者往往具有从众心理，销量过低的商品，会使顾客产生戒备心理，很难让消费者下定决心购买。第三，提升搜索排名。消费者在淘宝网浏览商品时，根据搜索排名依次浏览，排名越靠前的商品，消费者购买的可能性就越大。第四，降低店铺的差评率。当淘宝网店的差评率升高时，商家会选择利用虚假交易的方法，雇佣刷客为自己的商品给予好评，从而降低店铺的差评率，达到欺骗消费者的目的。由于在刷单的过程中，刷客必须要给予卖家好评，而好评对于消费者的购买决策能够产生巨大的潜在影响，而且一个产品的评价数量也决定了用户在商品详情页停留的时间，但是虚假的销量和评论会对消费者的购买决策产生误导作用，严重损害了消费者的利益。因此识别虚假交易对电子商务的健康发展具有重要的意义。
　　1文献综述
　　刷单是指以单件商品为对象，雇佣刷客模拟真实交易的形式，通过搜索商品、浏览商品、购买商品，给予商品正面积极的评论的形式增加商品的销量。因此在进行虚假交易识别的过程中，则以商品的评论和商品的销售记录为研究对象。
　　近年来，垃圾信息的识别研究是近几年的研究热点，从总体上来说垃圾信息的检测总要分为以下两个方面：基于信息本身，基于垃圾信息发布者的行为。而检测的方法主要集中于机器学习、模式识别和分类器。基于垃圾信息本身的检测方式的关键点在于特征提取的方法。特征提取方法主要包括信息熵（IG），又称为Kullback-Leibler距离[2]。Korprinska等[3]以词频方差法（TFV）来选取具有高词频方差的词。Guzella等[4]则以词汇袋（BoW），又被称为向量空间模型来进行垃圾信息的检测。Li等[5]提出了基于用户反馈的改进朴素贝叶斯方法。Sakkis等[6]将K临近方法应用于垃圾邮件的检测。Elssied等采用基于支持向量机（SVM）的过滤器进行垃圾信息的检测。以上这些机器学习方法都是一种监督式的机器学习方法，需要先验知识和一个完美的训练集。
　　基于垃圾信息发布者的行为方面，孟美任和丁晟春[8]分别从推销、诋毁、干扰和无意义4个方面分析了虚假评论发布者的动机，依据对造假动机的研究分析了虚假评论发布者的造假行为和隐藏行为。然而他们并没有根据虚假评论者的行为特征对识别工作做进一步的研究。文献[9]以捕捉虚假评论群体为目标，首先利用频繁模式挖掘发现虚假评论者候选组，计算虚假评论者组的指标值，将正常评论者组剔除后采用SVM方法学习和产生最后的虚假评论者组的排名。Bouguessa等[0]剔除一种非监督方法识别社交网络中的垃圾评论者，其重点在于分析社交网络中用户的关系链接结构，为每一个节点分配合理的分数，通过beta分布模型化这些分数，最终可以有效区分垃圾信息发布者和正常用户。Jiang]总结了垃圾评论者的两种行为模式：短时期内对某一商品进行持续评论和商品的实际购买量相对于用户对商品的好评严重不符，通过分析用户评论行为和对商品评价的偏差，分析识别虚假评论。　　从以上总结中可知，前人主要从被评论的主体入手，对其所属的所有评论信息进行分析，此外前人在进行虚假评论识别方面采用的是浅层机器学习模型，比如支持向量机、K最邻近算法等，作为有监督学习模型，需要大量的有标记样本进行学习，会耗费大量的人工标记时间成本。浅层模型主要依靠人工经验来抽取样本的特征，而模型主要是负责分类或预测，在模型的运用不出差错的前提下，特征的好坏成为整个系统性能的瓶颈。与传统的浅层学习不同，深度学习通过逐层特征变换，将样本在原空间的特征表示变换到一个新特征空间，从而使分类或预测更加容易，展现了强大的从少数样本集中学习数据集本质特征的能力。深度置信网络（DBN）是由若干层无监督的受限玻兹曼机（RBM）和一层有监督的反向传播网络（BP）组成的一种深层神经网络，是属于深度学习的一种机器学习模型[2]。DBN作为半监督深度学习模型，首先可以采用大规模无标签的样本集合，为DBN训练提供大量的样本，省去了标注大量样本的时间。其次DBN作为深层网络学习结构，能够学习到抽象特征，弱化浅层结构的错误特征。深度置信网络具有较强的无监督特征学习能力，但分类能力不强，为了弥补DBN分类能力不足之处，本文提出将多层感知器（MLP）与DBN相融合用于实现虚假交易的识别。感知器，就是二类分类的线性分类模型，其输入为样本的特征向量，输出为样本的类别，即通过某样本的特征，就可以准确判断该样本属于哪一类[3]。多层感知器对于非线性函数具有很强的逼近能力，并且对于连接权值的初始值具有很强的敏感性，与DBN相结合可以有效地提升分类识别能力。
　　基于商品销售记录的时序模型
　　在统计学中，多以商品销售量指数来描述商品某一时期销量的变化，商品销售量指数也称为商品销售量总指数，是一种数量指标指数，是反应多种商品销售量综合变动的总指数。在本文中，参考商品销量指数模型，以商品的月平均销量作为同度量因素，则商品的每日销量变化可以用以下公式表示：
　　其中Sit表示商品i在第t天的销量，Save表示商品的月平均销量。同时考虑到商家的基本信息：累计评论数、交易成功数、收藏宝贝、退款纠纷率和店铺注册时间，因此我们使用以下参数来作为描述店铺的特征：
　　店铺注册时间：注册时间短的店铺更有可能雇佣刷客为商品提高人气。顾客往往会信任信誉高的店铺，注册时间的长短也会影响到店铺的信誉值，为了快速增加店铺的信誉值，新注册的店铺更有可能雇佣刷客为商品提高人气。以店铺注册时间至收集到的商品最后一条销售记录的时间距离作为店铺的特征度量。
　　退款纠纷率：退款纠纷率高的店铺更有可能雇佣刷客为商品提高人气。在现实中淘宝会有7天无条件退货的要求，当顾客受骗时会选择退货，因此退款纠纷率高的店铺说明此店铺的商品质量有问题，因此其交易记录就有很大可能由刷客所刷。以店铺的退款纠纷率作为店铺的特征度量。
　　商品评论率=商品累积评论数商品成功效易数：商品评论率高的店铺更有可能雇佣刷客为商品提高人气。评论是刷客在进行虚假交易过程中的一个必需的步骤，因此当店铺的商品评论率高时，交易记录就有很大可能由刷客所刷。以收集到的最后一条交易记录的时间为节点，统计此商品有内容评论总数与成功交易数的比率作为店铺的特征度量。
　　单件商品评论比=单件商品评论数店铺商品评论总数：单件商品评论比高的店铺更有可能雇佣刷客为此商品提高人气。雇佣刷客的店铺往往是由于店铺商品销量低而采取的措施，因此在实际情况中，会出现单件商品评论数远大于店铺其他商品评论数的情况。以收集到的最后一条交易记录的时间为节点，统计此商品累积评论数与店铺评论总人数的比率作为店铺的特征度量。
　　收藏率=商品成交数收藏商品数：商品收藏率高的店铺更有可能雇佣刷客为此商品提高人气。在现实中，商品收藏数也会影响淘宝的搜索排名，为了使自己的商品能够在淘宝搜索排名中靠前，商家就会要求刷客在进行刷单的同时收藏此商品，并将收藏商品作为评判刷单是否完成的一个重要标准。以收集到的最后一条交易记录的时间为节点，统计此商品成交总数与收藏此商品总人数的比率作为特征度量。
　　重复评论率=重复评论数商品累积评论数：商品重复评论率高的店铺更有可能雇佣刷客为此商品提高人气。在现实的刷单交易中，商家为了防止刷客不评论或者给予不符合店铺要求的评论，往往会在发布的刷单要求中提供评论内容，将刷单的风险降至最低。因此可以推测，商品的重复评论率越高，则此商品就越有可能涉嫌刷单。以收集到的最后一条交易记录的时间为节点，统计此商品重复评论数与此商品累积评论数的比率作为特征度量。
　　平均评论长度=商品累积评论字数总和商品累积评论数：商品平均评论长度长的店铺更有可能雇佣刷客为此商品提高人气。在商家发布的刷单订单中，可以看出，为了能吸引消费者的目光，商家往往会在自己提供的评论中长篇描述本商品的优点和服务质量。因此可以推测，商品的平均评论长度越长，则此商品就越有可能涉嫌刷单。以收集到的最后一条交易记录的时间为节点，统计此商品累积评论字数总和与此商品累积评论数的比率作为特征度量。
　　通过以上描述，我们就可以得到输入向量：
　　其中Fi1表示第i件商品所在店铺的注册时间，Fi表示第i件商品所在店铺的退款纠纷率，Fi3表示第i件商品的商品评论率，Fi4表示第i件商品在店铺中的单件商品评论比，Fi5表示第i件商品的收藏率，Fi6表示第i件商品的重复评论率，Fi7表示第i件商品的平均评论长度。
　　3基于深度学习的虚假交易识别模型
　　一个n输入m输出的线性阈值单元组成的多层感知器网络结构如图1所示。
　　图中，输入与输出层之间存在一些隐层。网络的输入层没有计算节点，只用于获得外部输入信号，各隐层和输出层的神经元才是计算节点，其基函数取线性函数，激活函数取硬极限函数。假设MLP只有一个隐层，并设输入为x1，x，…，xn，隐层有n1个神经元，它们的输出分别为h1，h，…，hn1，网络输出用op表示[4]。　　则隐层第j个神经元的输出为：
　　多层感知器用于解决实际问题时，首先必须解决输入到隐层间连接权的训练问题，但是由于难以确定隐层输出的期望输出值，导致网络权值训练无法实现。因此人们寻求其它神经网络方案以解决线性不可分问题，BP网络就是这样一种网络。
　　传统的深度置信网络（DBN）是利用限制波兹曼机（RBM）来构建深度置信网络，如图所示。在训练过程中，首先将显性向量值映射给隐单元，然后显单元由隐单元重建，这些新的显单元再次映射给隐单元，这样就获取了新的隐单元。
　　限制波兹曼机的能量函数可以定义为[5]：
　　本文将MLP与DBN相融合，用于实现虚假交易的识别。首先利用DBN对交易特征进行学习，得到更高层次的抽象特征，然后对多层感知器进行初始化，从而实现虚假交易的识别，其中MLP在网络中进行分类任务。在DBN的初始化阶段，RBM将权重和偏置与MLP共享，这就意味着在DBN、MLP的初始化中，DBN模块和MLP模块使用同样的权重矩阵和偏置向量。当训练开始时，这些矩阵和向量会依据学习规则进行调节，随着训练的进行，DBN和MLP的权重矩阵和偏置向量会随之改变，也就不再相同。当训练整个网络时，参数会随之进行调节。简略图如图3所示。
　　4实验及结果分析
　　描述特征独立样本T检验结果，从输出数据中可以看出两样本均数差别有显著性意义，显著性差异明显。
　　本文采用分类器中最常用的评测指标：准确率（Accuracy）、精确率（Precision）、召回率（Recall）作为刷客识别的评判标准[6]。
　　准确率表示商品能够被正确分配到所属类别的准确率，它体现了分类器分类结果的准确程度。计算公式如下：
　　精确率表示虚假交易的商品能够被成功检测出来的精确率，它体现了分类器分类结果的准确程度。计算公式如下：
　　其中，TP表示把虚假交易的商品正确地预测为虚假交易的数量；FP表示把正常交易的商品错误地预测为虚假交易商品的数量。
　　召回率表示把虚假交易商品归类为虚假交易商品的概率，表示了虚假交易商品占总商品数量的比例。
　　TN表示把正常交易商品正确地预测为正常交易商品的数量；FN表示把虚假交易商品错误地预测为正常交易商品的数量。
　　在进行评价的过程中将精确度（Precision）和召回率（Recall）结合在一起，使用一个参数F-score来进行性能的评价：
　　中-1表示正常交易商品，1表示虚假交易商品。选取100件商品作为测试数据集，其中重合的点表示识别正确的商品，未重合的点表示识别错误的商品，从图中可以清晰地看出有5个未重合的点，即识别错误的商品，识别准确率达到了95%。使用分类识别中最常用的指标对识别结果进行量化分析可知精确率为100%，表示并未将正常交易的商品错误识别为虚假交易商品；召回率为90%，表示并未完全识别出测试集中的所有虚假交易的商品；综合精确率和召回率的指标F-score为9474%。接下来将此方法与DBN、SVM、随机森林（RF）和朴素贝叶斯方法（NBM）进行对比可以发现，其性能具有明显的提升。
　　5结论
　　本文将多层感知器和深度置信网络相结合，用于实现商品虚假交易的识别问题，其中多层感知器在识别模型中进行的是分类任务。首先利用深度置信网络对交易特征进行学习，得到更高层次的抽象特征；然后对多层感知器进行初始化，使用多层感知器进行分类任务，从而实现商品虚假交易的识别。根据商品的销售、评论记录以及店铺的基本信息来作为商品的特征，并将其量化。为了验证方法的可行性，从淘宝中收集商品的信息作为训练和测试集，对已经标记的商品数据进行训练学习，将此方法与传统识别方法进行对比，其性能有明显的提升。想对于淘宝中存在的海量的虚假交易的商品，本文中的实验数据相对较少，未来仍需要爬取相对较多的数据对方法进行进一步的验证。
　　参考文献
　　浙江省商务厅.浙江省网络零售业发展报告[DB/OL].http：∥www.zcom.gov.cn/art/2015/6/17/art1127176182.html，2015-06-17.
　　[2]Do M N，Vetterli M.Wavelet-based texture retrieval using generalized Gaussian density and Kullback-Leibler distance[J].IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society，2002，11（2）：146-158.

其他文献

基于隐性社会网络社团划分的推荐方法研究

[摘要]结合社会网络分析的推荐方法研究已成为热点。电子商务中用户的动态行为异常丰富，隐含了用户的关联关系，利用这些信息进行商品推荐是个新研究思路。分析电子商务系统中用户动态行为关联关系及用户间明确好友关系形成复杂隐性社会网络，将社团划分算法应用到该网络中，则社团内部用户联系紧密且具有更相似的消费偏好，据此设计了电子商务中社团内部的推荐方法，应用R语言进行了算法的验证并与传统的协同过滤算法进行比较。

期刊

隐性社会网络社团划分个性化推荐recessive social network community partition personalized re

审计专业实践环节教学模式创新研究

审计是一门实践性很强的学科，审计专业实践环节是学校教学与社会实践工作的枢纽。通过对审计实践教学方式、教学形式、组织方式等的研究，提炼出将《审计学》、《审计实习（实践）》

期刊

审计实践教学教学模式

我国2011年结构性减税问题的思考与建议

2011年以来,减税成为社会关注的热点,2012年继续实施积极的财政政策将加大减税力度。文章对2011年国家采取的结构性减税措施进行分析,为进一步完善结构性减税提出合理的对策

期刊

结构性减税分析建议

气举反循环结合泥浆净化装置清孔工艺在北江特大桥的应用

本文依托北江特大桥及其它类似大型桥梁超深桩清孔经验，介绍气举反循环结合泥浆净化装置的原理及其应用过程，两者的有效结合成功解决了超深桩清孔施工难题，具有一定的推广应用价

期刊

大直径超深桩气举反循环泥浆净化置清孔应用

桥梁工程问题及检测技术初探

文章中简要分析了桥梁工程常见病害，并基于现有的技术手段，探讨了桥梁工程检测方法，仅供同行借鉴。

期刊

桥梁工程静载检测技术动载检测技术

一路高歌向未来

时光荏冉，日月如梭。难忘的2005年即将过去，崭新的2006年正向我们走来，在这岁尾年初之际，新的一期《建材发展导向》将奉送到读者的手上。它承载着我们全体编辑人员对广大读者和作

期刊

建材行业读者编辑人员《建材发展导向》

会计缘

总觉得，我是与会计有缘的，而这份缘并不是踏着轻风悠然而来，反而历经一波三折，但最终还是化作了我生命中至关重要的一部分，成为了我现在与今后奋斗的方向。　　曾经，我心目中的会计就是天天和数字打交道，工作像白开水一样索然无味，没有激情；曾经，觉得自己应该是叱咤风云，或操纵大权或识文满腹的精英；曾经，毅然决然地不顾父母亲人的建议抛弃了会计专业。那时候的我甚至发誓一辈子不从事会计行业，不像小草一样无为一生。

期刊

散文文学作品现代文学《会计缘》

第二届“中国新锐批评家高端论坛”暨“中国新锐批评家文丛”首发式综述

2013年1月16日上午9：30,由谭五昌（北京师范大学中国当代新诗研究中心主任）、陈旭光（北京大学影视戏剧研究中心主任）、李遇春（中国新文学学会副会长）、柳忠秧（湖北省文联文学艺术院副

期刊

中国当代批评家首发式论坛北京师范大学中国新文学综述戏剧研究

问题剖析与路径探索——戏剧影视文学专业教学中几个不可回避的问题

大学的戏剧影视文学专业的发展面临新的机遇与挑战,在如何应对的问题上,争议较大。论文认为应坚持艺术类招生的方式,同时注意解决招生录取环节中出现的问题。加大专业方向选

期刊

戏剧影视文学招生课程建设

企业集团财务公司协同效应的问题研究

文章从实践角度分析一般情况下企业集团财务公司可发挥协同效应的来源和类型,并尝试提出如何更好发挥企业集团财务公司协同效应的几点建议。

期刊

企业集团财务公司协同效应

电子商务中基于深度学习的虚假交易识别研究

与本文相关的学术论文