论文部分内容阅读
近几年来,虚假的商品评论在电子商务网站中不断地涌现,这些虚假评论严重影响了电子商务网站的公平和公正。由于虚假评论隐藏在大量的真实评论之中,现存的研究方法仅仅将虚假评论作为一个孤立的静态问题来研究,很难快速有效的发现虚假评论。针对以上问题,本系统通过对用户的评论行为进行分析,挖掘虚假评论及其添加者之间的关系,锁定发布虚假评论的嫌疑用户及其评论,并基于相应的语义分析模型对评论文本进行情感分析,为确定嫌疑用户的评论是虚假评论提供数据支撑。为了能够准确地发现虚假评论,本文做了如下几方面工作:1、研究电子商务网站虚假评论的来源和规律,研究当前解决虚假评论问题的常用方法和技术手段,以及这些方法和技术的使用场景、优缺点等。确定本系统的需求和研究目标,在详细调查和研究的基础上设计出数据处理子系统、嫌疑用户探测子系统和嫌疑用户管理子系统来实现系统的目标。2、针对数据量大,数据离散和部分数据不完整等问题,建立数据处理子系统,处理商品评论数据、用户信息数据和用户交易数据。数据处理子系统主要用于整合来自各个外部系统的数据,通过并行触发多个Spark Job来完成商品评论数据的处理,用户信息数据的收集和用户交易数据的统计。3、针对商品评论真假难辨、虚假评论添加者的反侦察能力不断增强的现状,本文通过对用户添加虚假评论的动机进行分析,建立动机和评论之间的关联,创新地使用混合评论覆盖率算法、行为时差法和编辑距离等算法挖掘出具有可疑行为的用户;并使用基于细粒度的商品评论情感分析法对用户的评论进行语义分析,挖掘出语义所蕴含的情感;建立评估模型,将用户的行为数据和评论的语义分析结果应用到模型中,对嫌疑用户进行综合评估。4、针对虚假评论的证据分散和不集中的问题,开发嫌疑用户管理子系统,将嫌疑用户的基本信息、交易信息、评估结果和证据集中展示,以方便业务运行维护人员核定嫌疑用户及其虚假评论,并最终将嫌疑用户的评论确定为虚假评论。嫌疑用户管理子系统使用Spring和滚动侦测技术从多维度来呈现相关数据,使业务运行维护人员能够高效地找到确定虚假评论及其添加者所需的证据。虚假评论检测系统的测试和实际运行结果表明,本系统能够准确、高效的将需要的数据收集起来,具备发现嫌疑用户的能力,业务运行维护人员能够通过本系统确定嫌疑人及其虚假评论。使用本系统,极大的净化了电子商务网站的交易环境,提高了交易过程的公平和公正。