论文部分内容阅读
随着电子商务产业的迅猛发展,网络购物模式日趋成熟,商品在线评论系统应运而生,顾客可以根据商品评价选择产品,商家也可以根据评论及时获得消费者的反馈。在大数据的时代背景下,商品评论数量爆炸一般呈指数增长,由于顾客对于评价的重视程度越来越高,一些商家开始投机取巧,雇佣刷客对自己的商品进行批量好评,这往往会误导消费者去挑选真正适合自己的商品。在商品质量参差不齐的今天,怎么样从海量的商品评论数据中过滤出真实有效的评论成为了一个急需解决的问题。然而由于虚假评论数据量大,隐藏性较高,识别它们成了一个棘手的难题。得益于机器学习的广泛推广,我们可以利用模型对评论进行分析拟合,然而得到的模型仍然具有识别效率低,识别准确率低的问题,受神经网络的启发,我们可以利用深度学习网络模型来解决这些问题,本文主要从以下三方面进行了研究工作:(1)为解决在繁琐、冗长的中文文本预处理过程中由于流程不明确,导致耗时长、得到预处理数据不理想的问题,提出了一个文本数据预处理流程框架,并根据这个流程对本文实验中的评论数据进行预处理。为了给深度学习模型的实验性能设置对照组,对基于特征工程的各种特征提取方法和分类模型一一组合进行试验,得到了用逻辑回归模型在n-gram上的最好的分类效果0.893。(2)为了解决现有深度神经网络模型只能提取单一特征的问题,本文结合卷积神经网络和循环神经网络的优点,提出了一种基于并联方式的混合神经网络识别模型,并利用三种不同的特征融合方法,对使用循环神经网络提取出的全局特征和使用卷积神经网络提取出的局部特征进行特征融合,得到了同时具有局部特征和全局特征的文本表示。对商品评论数据进行识别,与CNN、Bi-LSTM相比较,该混合模型能获得更高的识别准确率,达到0.903。(3)为了解决初始的随机化词向量不能充分表达语料库语义的问题,使用了大量网络语料库对词向量进行训练,利用Word2Vec中的skip-gram模型训练得到预训练词向量,将原本的深度模型识别准确率普遍提升,最好的准确率为0.915。