论文部分内容阅读
随着Web2.0应用的深入发展,互联网已经进入了一个全民创造信息的时代,但同时也是一个信息泛滥的时代。文本、视讯等技术的日新月异极大扩展了我们创造内容的能力;论坛、微博等用户原创型应用又提供了众多信息分享的平台。这些极大地丰富了网络中原创文本内容,但在吸引众多用户浏览和分享的同时,也吸引了垃圾信息的发布。不论出于商业利益或者政治目的,这些行为导致很多论坛、热点博客的回复区、个人空间的留言板、微博的私信中等几乎所有支持文本发布功能并能吸引公众注意力的地方都充斥着垃圾信息。此类信息多以文本内容的形式出现,如何挖掘出其中潜藏的,没有价值的信息,保持数据的有效性和可用性,为用户提供一个干净的网络环境,是当前迫切需要解决的重要问题。 本文提出了垃圾文本定义和垃圾文本识别概念,分析了垃圾文本形式、危害、防范方法及通用识别方法。在Hadoop集群构建的实验平台上,基于某公司的真实数据集,展开了将文本挖掘和用户行为挖掘应用于垃圾文本识别的一系列研究。通过对相关算法的改进提出了:顾盼算法,解决了热词问题,有效降低属性间依赖关系,提升了朴素贝叶斯算法的整体性能;往返折半逼近算法,可快速将属性子集大小逼近理想状况;择优算法,解决了掩饰性垃圾文本较难识别的问题,有效提升了模型的召回率;首尾哈希算法,有效解决大规模长文本匹配中计算、存储代价过高问题。 最后,从实验结果数据分析,上述算法在模型性能提升上均有较明显效果。论文还对文本挖掘与用户行为挖掘性能差异研究分析,论述了二者结合使用的可能性。论文还实现了部分挖掘算法的分布式并行化处理,解决了大数据挖掘中计算和存储资源的限制。