论文部分内容阅读
随着电子商务的高速发展,越来越多消费者参与到在线评论互动中,由此产生了大量在线商品评论,并且数量呈爆炸式增长。然而巨大的用户群与潜在的利益关系,使虚假评论被广泛地制造与传播,导致了虚假评论的泛滥。大量的虚假评论会扰乱消费者的判断,使消费者做出错误决策,严重破坏了电子商务的秩序。因此识别并过滤这些虚假评论有着重要的理论价值及现实意义。 论文以大众点评网(http://www.dianping.com)的在线评论为基础,针对虚假评论识别问题开展研究,主要研究工作有: (1)针对虚假评论识别中正负样本不平衡(真实评论数量要远多于虚假评论数量)导致识别效果不理想的问题,提出了虚假评论识别改进算法SMOTE-RF(SMOTE and Random Forest)。算法将SMOTE(Synthetic Minority Over-sampling Technique)过抽样算法和随机森林算法应用到虚假评论识别中,利用SMOTE算法重构训练集,使原先正负样本不平衡的数据平衡化,提高随机森林模型构建过程中Bootstrap抽样阶段抽中虚假评论样本的概率,以此减少正负样本不平衡引起的识别误差。实验结果表明,与其他虚假评论识别算法相比,SMOTE-RF算法的识别效果有较大的提高。 (2)深入研究了虚假评论的内容特点与虚假评论者异常行为特点,发现情感极性和用户行为等因素对虚假评论识别是有影响的,而已有虚假评论识别方法大部分没有考虑这些影响。针对这一问题,提出一个多维虚假评论特征模型。在情感极性算法中引入情感密度、情感稳定性来反映评论的情感表达异常程度,并结合评论文本相似度、用户评论频繁度、用户关注异常度等特征来全面刻画虚假评论。实验结果表明,情感极性和用户行为特征对虚假评论识别起到很大的作用,与其他虚假评论识别方法相比,加入多维虚假评论特征模型的SMOTE-RF方法具有较高的识别准确率、召回率及F值。 (3)深入研究了虚假评论的时空特征,发现真实评论与虚假评论在时空特征上存在差异性,针对现有虚假评论识别方法忽略时空特征对识别影响的问题,设计了一种基于时空轨迹点序列的异常行为模型TAR,并结合评论时间、评论比例、评论者注册地点及与商家距离等时空特征建立虚假评论特征模型。实验结果表明,时空特征模型对虚假评论识别起到较大的作用。与逻辑回归、SVM、朴素贝叶斯等方法相比,加入时空特征的SMOTE-RF方法具有更高的识别准确率、召回率及F值。