一种结合文本和属性信息的垃圾评论快速过滤方法

来源 :北京大学 | 被引量 : 0次 | 上传用户:mackolxsbou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网媒体网站的迅速发展,新闻、博客的评论系统普遍遇到垃圾评论的困扰。这些垃圾评论中充斥着色情、暴力、政治敏感的信息,这些信息严重阻碍了用户之间正常的交流讨论。由于垃圾评论文字较少,仅仅依赖文本分析方法难以达到良好的过滤效果;相同评论在不同的网站和不同的文章中,会有不同的判断结果;此外,评论系统的数据量巨大,实时性要求很高。传统的垃圾邮件过滤系统无法解决垃圾评论的问题。  因此,我设计了一种过滤垃圾评论方法,不仅使用支持向量机算法提取评论的文本特征,还将评论的评论者信息、评论行为历史记录、电子邮箱、网址、IP地址、评论时间等元数据逐一进行分析、整理,将其转换成统一的概率数据,运用朴素贝叶斯分类器将多种特征数据融合在一起,组成一个兼顾所有元数据的分类器。此外,我们还根据不同元数据特征的置信度对特征进行加权,在不同的子系统中实现个性化的过滤,并对垃圾评论的进一步分类进行了尝试性的研究。  实验表明这种垃圾评论过滤方法有着优秀的过滤效果和快速的过滤速度,同时也能够满足大规模数据量、高实时性高可用性的要求。
其他文献
随着信息技术的迅猛发展,信息化程度的不断提高,全球数据量呈现出爆炸式增长。面对当前PB级的海量存储需求,传统的文件系统在容量和性能的扩展上存在瓶颈。云存储以其扩展性强、
云计算具有资源按需供给、支持应用弹性伸缩等优势,已逐渐成为广泛使用的计算泛型。当前,越来越多的应用系统已经或正在向云计算环境部署和迁移。但是,云应用的部署和配置费时费
文本推理的目标是识别文本对之间的蕴含关系和矛盾关系,这是一项语义层面的自然语言处理问题。文本推理可以应用于智能检索和问答系统等诸多领域。  本义的研究对象是简体
随着计算机技术的不断发展,信息安全问题日益显著。致力于解决终端安全问题的可信计算在这种背景下应运而生。可信计算的思想为从终端安全入手,在终端平台上植入安全芯片,从而从
互联网发展至今,已经覆盖了175个国家和地区的数亿台计算机,用户数量超过10亿。计算机已经深入到社会的各个领域,一个网络化的社会已经展现我们面前。然而光明和阴暗总是携手而
信息爆炸时代,每天都会有海量的数据产生出来,许多组织(如超市、银行、电信公司)及一些数据采集系统每天都产生大量的数据,而且此类应用数据来自于多节点的分布式网络环境,所以,如
物联网引起全世界的广泛关注以来,终端数量持续上升,逐渐成为上百亿个终端的市场,其丰富的应用和大量节点数给网络运营带来了技术上的挑战。而以IPv6为核心的下一代通信网络体系
态势是指事物的当前状态和未来的发展变化趋势,而态势可视化是指将态势数据形象化,通过信息可视化技术将态势数据转换成图形图像的方式来表达,从而方便用户理解和决策的过程。随
在信息化发展的同时,网络得到了普遍应用。确保网络的正常运行已经成为网络管理员的重要责任。网络管理员应该对网络的结构有比较全面的了解,在网络出现故障时应该能够及时发现
近年来,随着无线网络和移动手持设备的快速发展,基于无线移动网络的应用也越来越普遍。无线自组织网络(Mobile Ad-hoc NETworks,MANET)正是在这种背景下产生的。MANET具有自