基于深度学习的商品虚假评论识别

来源 :电子科技大学 | 被引量 : 1次 | 上传用户:k88ls06
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子商务产业的迅猛发展,网络购物模式日趋成熟,商品在线评论系统应运而生,顾客可以根据商品评价选择产品,商家也可以根据评论及时获得消费者的反馈。在大数据的时代背景下,商品评论数量爆炸一般呈指数增长,由于顾客对于评价的重视程度越来越高,一些商家开始投机取巧,雇佣刷客对自己的商品进行批量好评,这往往会误导消费者去挑选真正适合自己的商品。在商品质量参差不齐的今天,怎么样从海量的商品评论数据中过滤出真实有效的评论成为了一个急需解决的问题。然而由于虚假评论数据量大,隐藏性较高,识别它们成了一个棘手的难题。得益于机器学习的广泛推广,我们可以利用模型对评论进行分析拟合,然而得到的模型仍然具有识别效率低,识别准确率低的问题,受神经网络的启发,我们可以利用深度学习网络模型来解决这些问题,本文主要从以下三方面进行了研究工作:(1)为解决在繁琐、冗长的中文文本预处理过程中由于流程不明确,导致耗时长、得到预处理数据不理想的问题,提出了一个文本数据预处理流程框架,并根据这个流程对本文实验中的评论数据进行预处理。为了给深度学习模型的实验性能设置对照组,对基于特征工程的各种特征提取方法和分类模型一一组合进行试验,得到了用逻辑回归模型在n-gram上的最好的分类效果0.893。(2)为了解决现有深度神经网络模型只能提取单一特征的问题,本文结合卷积神经网络和循环神经网络的优点,提出了一种基于并联方式的混合神经网络识别模型,并利用三种不同的特征融合方法,对使用循环神经网络提取出的全局特征和使用卷积神经网络提取出的局部特征进行特征融合,得到了同时具有局部特征和全局特征的文本表示。对商品评论数据进行识别,与CNN、Bi-LSTM相比较,该混合模型能获得更高的识别准确率,达到0.903。(3)为了解决初始的随机化词向量不能充分表达语料库语义的问题,使用了大量网络语料库对词向量进行训练,利用Word2Vec中的skip-gram模型训练得到预训练词向量,将原本的深度模型识别准确率普遍提升,最好的准确率为0.915。
其他文献
长庆油田洛河层水大、腐蚀性大、易漏失、难封固、套管外腐蚀速度快,使油井寿命大大降低。近期试验守井的新型套管防腐工艺,是随套管下入手镯式阳极与薄层有机涂层相结合的防腐
本研究提出了一种新的心电信号压缩方法,该方法对心电数据进行离散余弦变换(DCT)并对DCT变换的结果进行二级矢量量化.该方法不但继承了矢量量化高压缩比的特点,而且在很大程
深海小型底栖生物具有重要生物医学研究价值。为了提高从海水样品中分离深海底栖生物的效率,减轻科研工作者的工作强度,研制丁一套深海底栖生物分离系统。系统设计中,为避免装置
摘 要:测井是一门应用性很强的学科,传统的测井教学以教师讲授为主,这在很大程度上限制了本门课程的教学质量。针对这一情况,笔者将MATLAB软件引入测井教学之中,收获了很好的效果。  关键词:地球物理测井;MATLAB;教学研究  地球物理学是利用各种物理学原理研究地球及地球内部矿藏资源的综合性学科。该学科下辖多门课程,地球物理测井则是其中之一。地球物理测井,简称测井,是用各种专门的仪器设备沿井身测
我国英语课堂教学遵循传统的以教师为主导的教学模式.建构主义理论的介入,可以发挥出交际型英语互动课堂模式的优势,有效地培养与提高学生的英语交际能力,在我国英语教学改革
小微企业在我国经济建设当中具有非常重要的作用,是一支非常重要的生力军。党中央、国务院高度重视民营企业和小微企业的发展,习近平总书记多次强调,要支持民营经济发展,指出民营经济的历史贡献不可磨灭,民营经济的地位作用不容置疑,要坚持“两个毫不动摇”,为民营企业营造更好的法治环境、营商环境。在当前形势下,各大银行均调整了对于小微企业的授信政策,加大了对于小微企业贷款的投入,通过采取改变自身产品政策、提升科
<正>梦想因时代而变化,变化着的梦想总是反映着时代的变迁和进步。出生于上个世纪初叶的爷爷,与共和国同龄的父亲,和改革开放共成长的我,在国家60年的沧桑巨变中,用自己勤劳
用一组关于钻井液组成、性能、特点、使用条件等的特征参数来定量描述各种类型的钻井液、并用模糊数学式识别的方法,根据地质和工程条件,优选一种适宜于油气储层的最佳钻井流体
期刊