论文部分内容阅读
在电子商务网站中消费者对某一商品或商家进行的在线评论通常是决定消费者购买某一产品或服务的关键性因素之一。一些不良商家出自于自身的利益去操控这些在线评论,所形成的大量虚假评论影响了消费者的利益和电子商务的正常发展。因此检测这些虚假评论成为了一项重要的任务。本文提出了一种基于文本与用户行为挖掘的方法对虚假评论进行了识别。本文主要完成了以下工作:(1)提取了有效的虚假评论识别特征。通过分析评论的文本及其语义提取了n-gram特征、词性特征和LDA主题特征;通过分析用户的异常行为和评论、评论者、商家之间的潜在关系提取了最大内容相似度、积极评论比例、最大日评论数目、评分偏差、评分、评论文本长度、评论者频繁度和目标项相似度等特征。(2)构建了虚假评论检测模型。基于提取的特征分别构建了评论文本特征指标、评论语义特征指标、用户行为特征指标和关系特征指标等四类指标并基于SVM和XGboost分类算法构建了分类模型。(3)对模型进行了实证分析。分别设计了基于评论文本特征指标、基于评论语义特征指标、基于用户行为特征指标、基于关系特征指标和基于融合特征指标的五类分类实验。最终通过实验验证了选取特征的合理性与构建模型的有效性。本文关于虚假评论识别的研究结果,为虚假评论识别研究提供了一些新的思路与有效的识别方法,可以为虚假评论识别实践工作提供一定的理论支持。