论文部分内容阅读
博客作为基于Internet的社交类应用,近年来保持了迅猛的发展势头,成为继Email、BBS和ICQ之后出现的第四种网络交流方式。博客在人际关系建立、维系和发展中发挥了越来越重要的作用,并已融入了人们的日常生活。随着博客影响力的不断加强,其副产品—垃圾博客也不断涌现。垃圾博客的大量出现已给博客的继续使用构成了一个很严重的威胁,不仅浪费存储资源和网络带宽,并通过增加搜索引擎的索引和计算开销,影响搜索结果的排名,从而降低了用户的搜索体验的满意度,影响用户获取高质量的信息。因此,如何精确的判断垃圾博客已成为信息检索领域亟待解决的难题之一,以及研究博客不能回避的一个问题。本文在已有的基于内容的垃圾博客特征提取基础上,提出了基于多结构特征对垃圾博客特征进行进一步提取的方法。本文从分析制造垃圾博客的作弊者的目的出发,分析了垃圾博客表现出的基于目录页和博文页面的各种结构特征,并对每种特征给出了特征提取的算法。从搜索引擎的结果中获取采集对象的地址,进而建立了更为真实和有针对性的垃圾博客识别数据集。提出了基于朴素贝叶斯和支持向量机分类方法的多结构特征垃圾博客识别模型。通过训练数据集进行参数设置,并使用测试数据集对识别模型进行检测。主要的研究内容包括以下几个方面:1.结合已有的研究,从基于作弊目的角度出发对垃圾博客表现出的结构特征进行了分析,并给出了特征提取算法。2.构建了博客采集系统。从搜索引擎的结果中获取采集对象的地址,采集用于垃圾博客识别的博客数据集,进行了预处理,并根据垃圾博客的定义对采集到的博客进行了人为的区分。3.提出了基于多结构特征的垃圾博客识别方法,并将上述识别方法分别与朴素贝叶斯方法和SVM结合构建了识别系统模型,利用训练数据集对模型训练后,使用测试数据集进行检测,将实验结果与基于内容的方法的结果进行了对比分析。