论文部分内容阅读
目前,离群点检测已经从最开始单纯的统计学应用,扩展到了更多更广泛的应用领域,尤其对于空间数据的处理取得了较大的成果。而随着网络大数据的发展,文本信息的自动化处理越来越被人们重视,离群点检测作为数据挖掘中的重要一环,在文本数据挖掘领域也有着长远的发展潜力。文本预处理、文本数据化表示等领域的发展也为离群点检测技术应用到文本挖掘提供了基础。诸如垃圾评论、垃圾邮件等的过滤,是可以由离群点检测技术实现的。本文的工作主要是针对不确定数据进行离群点检测算法研究,并尝试将该算法应用到垃圾评论过滤中,将垃圾评论的特征作为一种不确定数据对象,全部垃圾评论的特征集合作为不确定数据库,对于每一个要检测的评论,将评论的特征与不确定数据库中特征进行匹配,给出评论是正常评论的可信度。再应用不确定数据离群点检测算法过滤出可信度在阀值以下的点为离群点。本文主要创新点:(1)针对普通数据库无法处理不确定数据的情况,提出了基于元组压缩和基于距离的不确定数据离群点检测算法。通过仿真实验,该算法对于处理不确定数据有较高的准确度。(2)分析了垃圾评论的特点,对于垃圾评论过滤与常规离群点检测算法结合的难点进行了分析。针对商品评论以及贴吧、论坛等的灌水评论,根据上述算法提出了过滤的新方法。(3)通过网络,人工提取了淘宝用户对商品的评论、贴吧与论坛中各类型灌水评论作为数据集,并应用所提出的算法进行了实验,得到了比较满意的实验结果。