垃圾博客检测及相关技术的研究

被引量 : 0次 | 上传用户:guoyh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着internet技术的发展,博客(Web blog)通过为作者和读者之间提供交互式交流平台和动态更新的社会网络而成为极受欢迎的一种新媒体的社会沟通机制。据调查科学研究、统计调查、公共建设、教育、社会福利等研究领域都会应用博客的分析结果,所以博客巨大的信息源和信息量具有极其宝贵的价值。但随之产生的垃圾博客(spam blog or splog)也肆意猖獗。它产生的主要方式是盗窃他人内容或机器自动生成,其目的是提高目标网站在搜索引擎中的排名以链接盈利广告。垃圾博客造成的问题包括:1)严重降低博客的检索质量;2)明显浪费网络和存储资源。因此,为保护博客世界的良好环境,必须对垃圾博客进行过滤。首先本文根据博客的各种特征分析,提取了两种高效特征并结合传统的内容特征,采用特征组合的方法对博客进行分类。鉴于Yuuki Sato Takehito Utsuro对垃圾博客的统计规律以及对垃圾博客作者属性的分析,挖掘出博客的作者属性在博客分类中的重要性。这表明博客的作者属性具有十分重要的研究价值。博客作者常会无规律地发表博客,而垃圾博客为提高网页的点击率进而提高网站在ALEXA中的排名,须在短时间内发表大量的博文,同时机器生成垃圾博文的速度非常快。因此正常博客与垃圾博客在时间自相似特征上存在较大差异。本文根据文章中的作者属性和自相似特征的不同,对博客文章进行首次过滤,同时结合提取出的内容特征,增加特征之间的互补性,使垃圾博客过滤的效率大大提高。其次,本文设计了一种针对垃圾博客特征筛选的特征关联树分类算法。该算法根据特征之间的相关性构造出一种特征关联树结构来筛选特征,剪枝掉不相关和冗余特征,保留强相关和弱相关特征,同时利用期望交叉熵对特征关联树进行二次筛选[2]。与传统的特征选择算法相比,该算法可以消除博客样本数据非平衡的影响,根据特征的相似度和期望交叉熵的大小,自适应地调整特征关联树的规模,降低特征维度。垃圾博客过滤的对比实验表明,该算法用于垃圾博客过滤时,可以获得较好的准确率和召回率。本文提出的上述两种垃圾博客检测算法,均属于动态文本二分类算法。在分析传统的垃圾博客特征基础上,挖掘出检测垃圾博客的高效特征以及特征间的关联性,有效缩减了特征维度的规模,提高检测速度。经典分类器上进行对比实验测试,结果表明本文提出的垃圾博客检测算法具有良好的分类效果。
其他文献
近年来,刘醒龙是中国当代文坛上引人注目的一位现实主义作家,笔耕不辍20年,自20世纪80年代开始创作至今,始终坚持现实主义、高扬人文精神这一创作原则,同时不断的对小说形式
<正>24小时智能银行、地铁智能网点、金融便利店、网点预约取号、在线填单功能……这些具有首创性的服务功能均出自广发银行电子银行,由此,银行服务进入一个"以客户为中心"的
粮食仓储设施建设是粮食安全的重要保证,分析了中国粮食仓储设施建设的现状,指出了其中存在的不足,并以此为基础探讨了未来一个时期内国内仓储设施领域的建设任务,并研究了应
目的:研究细胞因子信号转导负调控蛋白3A(suppressor of cytokine signaling 3A,SOCS3A)在多疣壁虎脊髓中的细胞定位及过表达SOCS3A对神经元和星形胶质细胞生物学行为的影响。方
考古发掘出土的东汉光和元年(公元178年)李叔雅买地券,是东汉都城洛阳附近出土的比较单纯的铅质买地券。对其进行研究,有助于进一步明辨"买地券"和"镇墓券"的区别和性质,以及
<正>焦瑾璞认为,2012年货币政策要保持货币信贷总量和社会融资规模合理增长;着力优化融资结构,防范潜在金融风险;深化利率市场化改革和汇率形成机制改革;加强稳健货币政策与
青海省矿产资源储量丰富,是一个矿产资源大省,地球化学找矿还是本省地质找矿主要手段。30年来,圈出500多处地球化学综合异常,6000多处单元素异常,为青海地质找矿作出重大贡献。论
女辅导员具有独特的工作角色特点,在高校学生思想政治教育中发挥着重要作用,体现人格特征与行为方式的应付方式和作为个体应激资源的社会支持是影响高校女辅导员应激状态改变
为贯彻落实习近平总书记在民营企业座谈会上的重要讲话精神,研究进一步激发中部较落后地区民营经济发展活力的政策措施,根据国家发改委人事司安排部署,我们近期在河北省灵寿县开
报纸
虽然商标法没有对商品通用名称进行专门规定,但商品通用名称的认定往往关系到商标纠纷案件的处理结果。与商标不同,商品通用名称是相关公众约定俗成的,是用于指示商品或服务种类