基于多结构特征的垃圾博客识别研究

来源 :山西大学 | 被引量 : 0次 | 上传用户:yhj740821
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
博客作为基于Internet的社交类应用,近年来保持了迅猛的发展势头,成为继Email、BBS和ICQ之后出现的第四种网络交流方式。博客在人际关系建立、维系和发展中发挥了越来越重要的作用,并已融入了人们的日常生活。随着博客影响力的不断加强,其副产品—垃圾博客也不断涌现。垃圾博客的大量出现已给博客的继续使用构成了一个很严重的威胁,不仅浪费存储资源和网络带宽,并通过增加搜索引擎的索引和计算开销,影响搜索结果的排名,从而降低了用户的搜索体验的满意度,影响用户获取高质量的信息。因此,如何精确的判断垃圾博客已成为信息检索领域亟待解决的难题之一,以及研究博客不能回避的一个问题。本文在已有的基于内容的垃圾博客特征提取基础上,提出了基于多结构特征对垃圾博客特征进行进一步提取的方法。本文从分析制造垃圾博客的作弊者的目的出发,分析了垃圾博客表现出的基于目录页和博文页面的各种结构特征,并对每种特征给出了特征提取的算法。从搜索引擎的结果中获取采集对象的地址,进而建立了更为真实和有针对性的垃圾博客识别数据集。提出了基于朴素贝叶斯和支持向量机分类方法的多结构特征垃圾博客识别模型。通过训练数据集进行参数设置,并使用测试数据集对识别模型进行检测。主要的研究内容包括以下几个方面:1.结合已有的研究,从基于作弊目的角度出发对垃圾博客表现出的结构特征进行了分析,并给出了特征提取算法。2.构建了博客采集系统。从搜索引擎的结果中获取采集对象的地址,采集用于垃圾博客识别的博客数据集,进行了预处理,并根据垃圾博客的定义对采集到的博客进行了人为的区分。3.提出了基于多结构特征的垃圾博客识别方法,并将上述识别方法分别与朴素贝叶斯方法和SVM结合构建了识别系统模型,利用训练数据集对模型训练后,使用测试数据集进行检测,将实验结果与基于内容的方法的结果进行了对比分析。
其他文献
本文首先介绍了软件测试的基本方法,并对这些方法各自的优势进行了比较。其次,对软件测试中常见的软件错误进行了分析和分类。再次,基于软件控制论的思想,应用受控马尔可夫链方法
该文通过研究一种8位实时操作系统AvrX的汇编代码,结合操作系统原理和其他操作系统如linux、μCOSⅡ、VxWorks的有关内容,分析了AvrX内核部分的实现机理,剖析了它的设计思想;
该文介绍了采用32位MCUMC68376和16位定点DSPTMS320LF2407为核心、基于异步电机变频调速的网络化、智能化的电梯主控系统.该系统采用了当前主流的高速芯片和新的电子技术,具