基于虚假评论检测的评论可视化系统的研究与实现

来源 :重庆大学 | 被引量 : 0次 | 上传用户:longlong2ddd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在线评论是当今消费者做出消费决策的重要参考指标,而虚假评论的涌现不仅干扰了消费者获取信息的准确性,并且影响了商务交易的公平性。通过人工筛选的方式,在海量评论信息中识别虚假评论不但效率低,而且准确率不高。因此,通过技术手段识别虚假评论日渐成为一个研究热点。本文介绍了虚假评论识别的国内外研究现状,分析了检测算法的优点和局限性,并指出目前的研究难点。论文主体围绕虚假评论检测和评论信息可视化展开,主要工作有以下三点:(1)虚假评论的真实样本为不平衡样本,若直接用于监督算法进行训练,会使模型偏向多数类样本,而作为少数类的虚假评论识别效果差。对此问题,本文引入自适应综合取样方法ADASYN对训练样本进行处理。将段落向量所表示的文本特征和评级偏差、用户活跃度等评论外部特征作为输入,训练SVM模型检测虚假评论。实验表明,利用ADASYN处理样本的方法比随机过采样、随机欠采样和直接使用原始不平衡样本的方法在识别效果上更佳;(2)提出将评论文本情感时间序列上的波动异常特征融入到虚假评论检测任务中。使用基于情感词典的情感分析方法提取评论文本的情感值,并利用情感词典与词向量的相似度来建立餐饮领域情感词典,提高文本情感计算准确率。利用基于残差统计的时间序列异常检测方法对评论情感时间序列中波动异常的时间点进行检测,并将其作为一项特征,融入到虚假评论检测模型中。实验表明,此特征对于虚假评论检测有一定的指导意义;(3)设计并实现评论数据可视化系统。对Yelp网站上纽约地区热门餐馆进行抽取评论文本和评论元数据,基于本文提出的检测方法过滤掉虚假评论。通过视觉映射、数据缩放、词云等技术,将真实的评论和评论元数据从情感走势、评论热度、形容热词、名词热词、评论星级五个维度进行可交互的可视化展示。将杂乱无章的评论信息转化为精炼、浓缩的视觉输出,为用户快速做出就餐决策提供直观、可靠的参考。
其他文献
高校如何处理好科研与教学和产业之间的关系,高校科技工作应该建立何种模式是新时间我国高等高校,尤其是国家重点高校普遍关注的问题。华中科技大学经过多年探索,确定了结合自身
做好软基处理直接关系到公路的质量,交通的安全,国家的利益。软土路基本身存的在稳定性差和沉降很大等特点,对高速公路工程质量和道路正常运营使用造成很大影响,下面介绍高等级公
混合现实对虚拟现实和增强现实进行了创新融合发展,实现了同一场景内虚拟物体和真实物体实时共存与交互。与虚拟现实和增强现实相比,混合现实在沉浸感、交互性和视觉显示等方
随着我国市场经济的不断深入发展,以及生活水平的不断提高,生态环境的重要性正在不断的受到人们的重视,林业的发展也成了人们关注的焦点。国有林场的分类经营改革正好适应了我国
人力资源是当今社会最宝贵的资源。随着现代人力资源管理理论的丰富和人们对其理解的深化,学者越来越多地开始关注人力资源管理在国有企业中的运用与发展。本文通过分析我国国
本文讨论了多单片机的几种互连方案,并针对8098/8051,利用本身的资源,设计了公共总线方案,对该方案的循环判优逻辑,同步机制,通信邮箱分配和时间指标等进行了详细的分析,为实际应用奠定了基础
国库集中支付制度是国库集中收付制度的重要组成部分,它作为政府支出管理的重要手段和改革预算执行的必要保障,是市场经济国家适应市场经济体制的要求.建立国库集中支付制度
近年来,我国水产养殖业发展迅速,水产养殖面积与产量高居世界前列,特别是网箱养鱼更是突飞猛进的发展。随着网箱养殖技术的不断改进和提高,网箱养鱼逐渐由大网箱低密度发展到小体
近年来,随着我国经济的飞速发展以及国外先进建筑设计理念和建筑施工技术的引进.加之我国工业建筑施工技术的不断创新,我国工业建筑施工技术发展正向着高科技化、生态化、工业化
平等主义分配原则的理论基础是平等。平等主义者把平等的价值区分为工具性价值和内在价值两方面。充足主义与优先主义对平等主义的批评是,平等主义诉诸的平等本身并没有那么重