【摘 要】
:
随着电子商务平台的发展,越来越多的消费者将商品评论作为消费参考,随之出现的是以牟利为目的的刷单现象。因此,如何高效准确的识别虚假交易成为一大研究课题。本文从虚假交易数据入手,分两方面建模,对基于深度神经网络模型进行特征表示与分类进行研究,旨在解决虚假交易的识别问题。在通过文本特征分类时,构建基于Bi-LSTM+Attention的文本内容识别算法。将文本内容进行数据清洗、分词、Word Embed
论文部分内容阅读
随着电子商务平台的发展,越来越多的消费者将商品评论作为消费参考,随之出现的是以牟利为目的的刷单现象。因此,如何高效准确的识别虚假交易成为一大研究课题。本文从虚假交易数据入手,分两方面建模,对基于深度神经网络模型进行特征表示与分类进行研究,旨在解决虚假交易的识别问题。在通过文本特征分类时,构建基于Bi-LSTM+Attention的文本内容识别算法。将文本内容进行数据清洗、分词、Word Embedding等步骤,输入Bi-LSTM提取特征向量,利用Attention机制求得权重并对特征向量进行更新,通过全连接层和softmax函数进行分类。Bi-LSTM解决文本数据长距离依赖,更全面的考虑上下文信息。Attention机制通过加权重识别关键特征,从而优化文本特征向量。在通过属性特征分类时,构建基于CNN的属性特征识别算法。将离散型行为属性预处理并进行Embedding操作。对行为特征进行优化设计,原始数据嵌入表示以提高模型的准确性。利用CNN网络结构的卷积、池化等操作进行特征提取。通过构造分类器进行分类。卷积神经网络CNN进行局部平行特征提取能更好地组合特征,自动高效且避免了人工提取特征的主观性和局限性。融合行为与文本特征的虚假交易识别模型,对文本和属性分别进行特征提取之后,获得两部分特征向量,利用连接函数对其进行拼接,得到同时包含文本和行为两部分特征的联合特征向量,对比不同分类器选取最优分类效果。相比于单独针对评论文本的识别算法,以及传统普通机器学习等其他识别方法,对原始数据特征使用更全面,能更准确的识别虚假交易。通过python实现算法,采用网络上公开的权威数据集对分类模型单独进行验证;利用爬虫技术从淘宝平台上爬取真实交易数据进行虚假交易识别验证;通过调参训练模型,同时尝试不同的分类算法以选取最优分类效果。对比同类算法,实验表明,本文算法的准确率及召回率均优于同类算法。本文有关于虚假交易识别的研究结果,验证了本文所构建模型的合理性,以及对应提出算法的有效性,为虚假交易识别的研究提供了有效的研究识别方法。
其他文献
中国清代著名小说家吴敬梓所著《儒林外史》,是中国古典小说中的瑰宝。其“秉持公心,指摘时弊”的讽刺艺术,在中国文学史上有其特殊地位。然而,尽管《儒林外史》原著极具研究
创建全国文明城市是助推城市发展的重要载体,全国文明城市每三年评选表彰一次,前四届已经累计有88个城市获得全国文明城市称号;2015-2017年是第五届全国文明城市评选期。四川
[目 的]1.通过small RNA测序筛选小细胞肺癌患者血浆中化疗耐药差异表达的microRNAs;2.在小细胞肺癌亲本细胞株H69及其多药耐药株H69AR中,对筛选出来的差异表达microRNAs进行
口语或笔语语误是目标语言输出过程中的一种正常现象,是外语学习者语言能力发展的重要部分。近来,语误及其产生原因受到越来越多的外语研究者的重视,语料库语言学研究方法使
2015年,中国对外直接投资(OFDI)实现历史性突破,对外投资流量首次位列全球第二,占全球的比重提升到9.9%,并且首次超过同年吸引外资金额,使得中国成为资本净输出国,也成为当之
近几十年来,国家的现代化进程取得了举世瞩目的成就,然而由于在发展过程中缺乏一定的环保意识和相应的环保措施,我们赖以生存的自然环境受到严重污染,尤其是水污染问题非常突出。严重的水污染不仅会破坏生态系统的平衡,也给人们的身体健康带来极大的隐患。水是生命之源,水污染使得自然界的水体中充斥着大量的有害物质。各种有毒的金属离子人体内富集,最终导致各种疾病的发生。因此,能够快速有效地检测出自然水体中痕量的重金
随着全国运输网络的快速发展,桩基础已经成为一种成熟的施工基础形式,具有一定的年代价值。当代的桩基技术是现代技术和传统桩基相结合的产物,其中预应力管桩的施工设备简单
社区矫正作为一种新型的刑罚执行方式,是司法改革的重要内容,这种新型的刑罚执行更加合理的配置了行刑资源,降低了行刑成本。通过2003在五个地区进行试点探索以来,社区矫正工
随着现代生活节奏的加快,竞争日趋激烈,这使得企业员工面临工作与家庭的双重压力,越来越多的企业开始意识到家庭生活会影响到员工的工作状态,进一步影响其工作绩效,只有幸福
鞋印图像是刑事侦查中常见的重要证物之一,它在揭露和证实犯罪时有重大作用。目前针对鞋印分类的算法大多是基于闭集分类的算法,其假设所有的测试图像都包含在训练集中出现过的类别。然而现实的场景下,会出现很多未知类别的鞋印图像,如果直接使用闭集的假设前提,其闭集性会迫使分类器从已知类中做出选择,分类性能并不是很好。近几年来,深度网络在解决各种视觉识别问题上取得了显著的进展,对学术和商业应用产生了巨大的影响。