论文部分内容阅读
最近几年,网上很多的文本信息愈来愈成为产品,服务或事件等有价值的观点信息源。而且现在已有很多的研究工作者开始从事比如产品评论,论坛热帖以及微博等观点信息源的情感分析方面的研究。在研究的早期阶段,人们大多将研究重心放在依赖于自然语言处理和数据挖掘技术的观点抽取及情感分类问题上,但是一个不容忽视的问题是垃圾评论(或虚假评论、不可信评论)会给研究工作造成极大的危害,因此如何在大量的评论当中识别出那些垃圾评论及垃圾评论者是情感分析研究的前提,同时也是一个巨大的挑战。在这个互联网极为发达的社会,越来越多的人们会选择从网络中获取所需的信息,且很多人们愿意通过网络分享、交流他们对于某种事物的看法和所持的态度。其中最典型的便是网络购物,而这些电商平台上的在线评论提供了大量有价值的包括产品和服务的信息,然而这也给某些产品制造商或经销商带来了对评论作弊的利益驱动,他们会雇佣那些作弊者撰写垃圾评论来误导消费者做出错误的选择,从而提高自己的市场份额,增加自己的利润。本文所研究的对象主要是基于电商平台的产品评论和商店评论。首先本文对垃圾评论(者)检测的研究现状进行了总结,详细分析了本文所用的数据集及相关算法,并提出了一种创新的垃圾评论者检测多重边图模型,模型通过对那些针对同一商品进行评论的评论者所持的态度,将这些评论者之间的关系抽象为支持边和反对边,然后在迭代计算过程中融入评论者特征。本文提出的算法借鉴了TrustRank的某些思想但是却又不尽相同。最后通过实验对我们的模型和算法进行了验证,评测结果表明,我们的算法能够用较低的时间复杂度,达到一个较高的准确率,这较之前的算法有了较大的提升。综上所述,我们的算法能够有效的进行垃圾评论者检测,尤其是那些参与群体作弊行为比较多的垃圾评论者,这些评论者的危害也是最大的。