社交平台垃圾信息过滤系统的设计与实现

来源 :东南大学 | 被引量 : 2次 | 上传用户:ghtianli
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅猛发展,网络社交平台已经成为人们沟通交流的重要方式,给人们带来了极大的便利。但在各种数据飞速增长的同时垃圾信息也不断的膨胀,垃圾信息严重干扰用户的正常交流,损害用户利益,甚至危害社会安定。这迫切需要净化网络空间,营造健康良好的社交体系。因此,社交平台垃圾信息过滤技术已经成为当前研究普遍关注的热点问题。本文设计并实现了一种基于文本分类算法的社交平台垃圾信息过滤系统,其主要工作如下:(1)阐述了数据爬取的基本原理,对天涯论坛进行数据采集和标注,构建实验语料库,作为实验数据。其中数据采集是通过编写python脚本调用urllib2和BeautifulSoup来读取并分析天涯论坛页面;数据标注是通过人工研判进行文本标注。(2)研究了基于文本分类算法的垃圾信息过滤算法,实现了 k近邻、逻辑回归、支持向量机、随机森林和神经网络五种模型的垃圾信息过滤器,并从过滤性能和过滤器消耗的时间等方面评价五种过滤器的优缺点。实验证明支持向量机算法过滤效果最好,但运行时间相对较长。针对垃圾信息过滤时由于忽略文本结构而导致大量语义信息丢失的问题,本文将一种基于词序列核的支持向量机算法应用于垃圾信息过滤中,而针对原始词序列核无句子概念,本文提出了一种基于句抽取的词序列核,在没有大幅度增加时间和空间复杂度的基础上提高了本实验环境下垃圾信息过滤的准确率。(3)设计并实现了一种社交平台垃圾信息过滤系统(SFS),该系统包括数据导入模块、数据预处理模块、特征选择模块、垃圾信息过滤模块等,其中特征选择模块采用词频-逆文档频率、信息增益、期望交叉熵、互信息四种方法,并对该系统进行了功能测试和性能测试。在该社交平台垃圾信息过滤系统中对帖子内容进行了测试分析,若内容属于美白、减肥、瘦身产品等垃圾广告帖时过滤效果好,若属于中奖、色情、反动言论等垃圾信息帖则过滤效果不好。这可能是因为从天涯论坛爬取的数据中大多是产品广告,而其他类别的垃圾信息很少。通过对社交平台垃圾信息进行分析和过滤,以帮助软件开发者或使用人员尽可能地发现和过滤垃圾内容,减少社交平台中垃圾信息的数量及生存期,从而避免垃圾信息对企业和个人造成重大的损失。
其他文献
本文说明了古代中医对环境污染并非一无所知。认为现代中医学应将环境污染作为一项病因提到教学与研究的日程。探讨了环境污染性病因的概念及其致病特点。简论了中医学防治环
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
目的:分析湖南省居民2019冠状病毒病(coronavirus disease 2019,COVID-19)相关知识、态度和行为的现况及其行为的影响因素。方法:利用自行设计问卷对湖南省4139名居民进行网
目的探究脑梗患者吞咽障碍的护理措施和护理效果。方法采用随机数字表法,将我院收集到的60例伴有吞咽障碍的脑梗患者分为对照组和观察组,对照组实行常规护理措施,而观察组则
对于可切除胃癌而言,根治性手术仍然作为治疗的核心手段,但对于转移性胃癌而言,手术方式的选择和手术效果需要探索。放射治疗(以下简称放疗)、化学治疗(以下简称化疗)、分子
目的分析卵巢性索间质肿瘤的CT表现并与病理结果进行对照,探讨其诊断价值。方法回顾性分析我院2014年5月至2016年2月收治的21例经病理检查确诊为卵巢性索间质肿瘤患者的CT及
<正>目的:分析白内障术后低视力原因,做好术前评估。方法:回顾分析2011年2月~2013年2月间在我院行白内障超声乳化+人工晶体植入术后1周最佳视力小于0.3的患者进行验光、眼压
会议
休闲观光牧场是畜牧业发展的新业态,能有效增加养殖业的收入,提升消费者对国产乳制品的信心。中国的休闲观光农业已有30年左右的历史,近年来呈现快速发展的趋势。近日,农业部
本文利用浙江某电厂的大量野外实测资料 ,分析火电厂的氮氧化物排放量情况 ,并提出了电厂氮氧化物排放系数 ,经过实例分析 ,得到了较满意的结果。更多还原
本文以具体实例,介绍了不同类型的生物学原创性试题的设计。