面向垃圾评论过滤的离群点检测算法研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:ke19881101
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,离群点检测已经从最开始单纯的统计学应用,扩展到了更多更广泛的应用领域,尤其对于空间数据的处理取得了较大的成果。而随着网络大数据的发展,文本信息的自动化处理越来越被人们重视,离群点检测作为数据挖掘中的重要一环,在文本数据挖掘领域也有着长远的发展潜力。文本预处理、文本数据化表示等领域的发展也为离群点检测技术应用到文本挖掘提供了基础。诸如垃圾评论、垃圾邮件等的过滤,是可以由离群点检测技术实现的。本文的工作主要是针对不确定数据进行离群点检测算法研究,并尝试将该算法应用到垃圾评论过滤中,将垃圾评论的特征作为一种不确定数据对象,全部垃圾评论的特征集合作为不确定数据库,对于每一个要检测的评论,将评论的特征与不确定数据库中特征进行匹配,给出评论是正常评论的可信度。再应用不确定数据离群点检测算法过滤出可信度在阀值以下的点为离群点。本文主要创新点:(1)针对普通数据库无法处理不确定数据的情况,提出了基于元组压缩和基于距离的不确定数据离群点检测算法。通过仿真实验,该算法对于处理不确定数据有较高的准确度。(2)分析了垃圾评论的特点,对于垃圾评论过滤与常规离群点检测算法结合的难点进行了分析。针对商品评论以及贴吧、论坛等的灌水评论,根据上述算法提出了过滤的新方法。(3)通过网络,人工提取了淘宝用户对商品的评论、贴吧与论坛中各类型灌水评论作为数据集,并应用所提出的算法进行了实验,得到了比较满意的实验结果。
其他文献
在《中国青年报》上,读到这样两则消息:一则是上过中央电视台“实话实说”栏目的“艰难的寻亲”。说的是1981年10月21日,在吉林省通化市某医院,有8个婴儿同天诞生了。21世纪
人类正处于一个被数据包围的时代,数据在人类的生产生中扮演着越发重要的角色。随着人们对于数据挖掘和管理技术的理解深入,同时随着技术本身的不断进步,不确定数据越发受到
机电一体化技术的发展是现代科学技术发展的必然,是由机械技术与信息和控制等技术的有机融合、相互渗透的结果.其对改变整个机械制造业面貌发展的意义重大.本文简述了其在机
改革开放将我国带入一个复杂的社会转型期,这是一个由传统社会向现代社会,由计划经济体制向市场经济体制转变的时期。“弃档族”的出现,便是转型期的一种社会现象。围绕着这
信息在中国社会经济的发展过程中发挥着重要的驱动作用,推进社会信息化建设来带动工业信息化发展,在这一战略发展的过程中取得了一定的成果。在中国进入 WTO(世界贸易组织)后,信息
随着信息和网络技术的发展,指挥信息系统正面临着前所未有的挑战。这种挑战包括系统所处环境的不确定性、任务的复杂性、系统功能的多样性以及系统结构的松耦合性等等。这些外部或内部的变化给指挥信息系统的灵活性提出了很高的要求。灵活的指挥信息系统要求系统结构具有以下两方面的能力:系统无论遇到什么样的变化都保持原有能力基本不变的能力,即系统静态结构执行任务的能力;系统针对环境变化采取新的运作方式以适应新的环境条
2001年12月11日,我国正式加入WTO,成为WTO的第143个成员。这是一个具有里程碑意义的历史时刻。按照我国政府的承诺,首先与WTO“交锋”的将是金融、保险、贸易等几大行业,但随
编者按:1963年,毛泽东等老一辈无产阶级革命家欣然命笔题词,向全社会倡导学习雷锋精神.40年来,雷锋精神历久不衰,净化着人们的心灵,不断得到传承和发扬.本刊特发表湖南省档案
2002年夏初,在怀化市某开发区,一幢崭新的七层大楼拔地而起。她似一颗璀灿的明珠,点缀在湖南西部这一块宝地上,闪闪发光,它就是怀化市国家安全局。近年来,怀化市国家安全局档
汽车企业之间的竞争日益加剧,在经历了价格战和产品质量竞争阶段后,服务成为竞争的有力武器.本文通过对汽车服务营销理论的分析,对企业如何开展服务营销提出了几点建议.