论文部分内容阅读
在线评论是当今消费者做出消费决策的重要参考指标,而虚假评论的涌现不仅干扰了消费者获取信息的准确性,并且影响了商务交易的公平性。通过人工筛选的方式,在海量评论信息中识别虚假评论不但效率低,而且准确率不高。因此,通过技术手段识别虚假评论日渐成为一个研究热点。本文介绍了虚假评论识别的国内外研究现状,分析了检测算法的优点和局限性,并指出目前的研究难点。论文主体围绕虚假评论检测和评论信息可视化展开,主要工作有以下三点:(1)虚假评论的真实样本为不平衡样本,若直接用于监督算法进行训练,会使模型偏向多数类样本,而作为少数类的虚假评论识别效果差。对此问题,本文引入自适应综合取样方法ADASYN对训练样本进行处理。将段落向量所表示的文本特征和评级偏差、用户活跃度等评论外部特征作为输入,训练SVM模型检测虚假评论。实验表明,利用ADASYN处理样本的方法比随机过采样、随机欠采样和直接使用原始不平衡样本的方法在识别效果上更佳;(2)提出将评论文本情感时间序列上的波动异常特征融入到虚假评论检测任务中。使用基于情感词典的情感分析方法提取评论文本的情感值,并利用情感词典与词向量的相似度来建立餐饮领域情感词典,提高文本情感计算准确率。利用基于残差统计的时间序列异常检测方法对评论情感时间序列中波动异常的时间点进行检测,并将其作为一项特征,融入到虚假评论检测模型中。实验表明,此特征对于虚假评论检测有一定的指导意义;(3)设计并实现评论数据可视化系统。对Yelp网站上纽约地区热门餐馆进行抽取评论文本和评论元数据,基于本文提出的检测方法过滤掉虚假评论。通过视觉映射、数据缩放、词云等技术,将真实的评论和评论元数据从情感走势、评论热度、形容热词、名词热词、评论星级五个维度进行可交互的可视化展示。将杂乱无章的评论信息转化为精炼、浓缩的视觉输出,为用户快速做出就餐决策提供直观、可靠的参考。