面向垃圾评论过滤的离群点检测算法研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:ke19881101
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,离群点检测已经从最开始单纯的统计学应用,扩展到了更多更广泛的应用领域,尤其对于空间数据的处理取得了较大的成果。而随着网络大数据的发展,文本信息的自动化处理越来越被人们重视,离群点检测作为数据挖掘中的重要一环,在文本数据挖掘领域也有着长远的发展潜力。文本预处理、文本数据化表示等领域的发展也为离群点检测技术应用到文本挖掘提供了基础。诸如垃圾评论、垃圾邮件等的过滤,是可以由离群点检测技术实现的。本文的工作主要是针对不确定数据进行离群点检测算法研究,并尝试将该算法应用到垃圾评论过滤中,将垃圾评论的特征作为一种不确定数据对象,全部垃圾评论的特征集合作为不确定数据库,对于每一个要检测的评论,将评论的特征与不确定数据库中特征进行匹配,给出评论是正常评论的可信度。再应用不确定数据离群点检测算法过滤出可信度在阀值以下的点为离群点。本文主要创新点:(1)针对普通数据库无法处理不确定数据的情况,提出了基于元组压缩和基于距离的不确定数据离群点检测算法。通过仿真实验,该算法对于处理不确定数据有较高的准确度。(2)分析了垃圾评论的特点,对于垃圾评论过滤与常规离群点检测算法结合的难点进行了分析。针对商品评论以及贴吧、论坛等的灌水评论,根据上述算法提出了过滤的新方法。(3)通过网络,人工提取了淘宝用户对商品的评论、贴吧与论坛中各类型灌水评论作为数据集,并应用所提出的算法进行了实验,得到了比较满意的实验结果。
其他文献
人类正处于一个被数据包围的时代,数据在人类的生产生中扮演着越发重要的角色。随着人们对于数据挖掘和管理技术的理解深入,同时随着技术本身的不断进步,不确定数据越发受到
信息在中国社会经济的发展过程中发挥着重要的驱动作用,推进社会信息化建设来带动工业信息化发展,在这一战略发展的过程中取得了一定的成果。在中国进入 WTO(世界贸易组织)后,信息
随着信息和网络技术的发展,指挥信息系统正面临着前所未有的挑战。这种挑战包括系统所处环境的不确定性、任务的复杂性、系统功能的多样性以及系统结构的松耦合性等等。这些外部或内部的变化给指挥信息系统的灵活性提出了很高的要求。灵活的指挥信息系统要求系统结构具有以下两方面的能力:系统无论遇到什么样的变化都保持原有能力基本不变的能力,即系统静态结构执行任务的能力;系统针对环境变化采取新的运作方式以适应新的环境条
汽车企业之间的竞争日益加剧,在经历了价格战和产品质量竞争阶段后,服务成为竞争的有力武器.本文通过对汽车服务营销理论的分析,对企业如何开展服务营销提出了几点建议.