【摘 要】
:
随着网络的发展,社会网络给人们的相互沟通带来极大的便利,但大规模的垃圾信息严重影响了人们的正常交流。垃圾信息消耗大量网络资源,损害用户利益,还会被一些别有用心的人用来散
论文部分内容阅读
随着网络的发展,社会网络给人们的相互沟通带来极大的便利,但大规模的垃圾信息严重影响了人们的正常交流。垃圾信息消耗大量网络资源,损害用户利益,还会被一些别有用心的人用来散播虚假消息、商业广告或一些恶意的连接,危害社会安定。因此,垃圾信息过滤技术已经成为当前研究普遍关注的热点问题。本文研究了基于机器学习理论的垃圾信息过滤技术。由于该过滤技术具有正确率高,成本低等特点,已成为解决垃圾信息过滤问题的主流方法。本文的研究内容主要分为以下几个部分:首先,研究了微博信息的特征。在特征提取部分,研究了基于词的特征提取方法和基于字节级n-grams的特征提取方法。其次,研究了基于机器学习的垃圾信息过滤算法,并实现了基于朴素贝叶斯、基于逻辑回归和基于支持向量机三种模型的垃圾信息过滤器,并从过滤器消耗的时间和过滤性能等方面评价三种过滤器的优缺点。针对SVM过滤算法的训练时间过长问题,提出了一种基于衰减因子增量式SVM算法,相比传统的SVM增量式学习算法,在准确率方面有所提升,而学习时间几乎不变。最后,提出了一个微博垃圾信息过滤系统(SFS)。该系统包括爬虫模块,打标模块,过滤模块等。利用打标模块将爬虫模块所爬取得数据进行标注,然后用过滤模块进行建模和检测。并对该系统进行了性能测试,系统可连续1个月不间断运行,其CPU使用率保持在28%以下,内存使用保持在650M~800M之间,没有过大波动。该系统可以实时的对垃圾信息进行过滤。
其他文献
<正>针对目前我国缺乏老年人抗阻训练推荐量的现状,通过文献资料法、逻辑分析法,对英国、美国、加拿大,南非、日本、美国运动医学会和世界卫生组织有关抗阻训练推荐量进行概
译学研究作为一门学科,大多数学者认为成立于1976年在比利时勒芬(Leuven)举行的历史性学术会议。在此之前,翻译研究早已是源远流长,各家各派著述甚丰。中国方面,其荦荦大观者
随着我国经济的发展,能源短缺与环境问题已经成为了制约经济发展的主要矛盾。太阳能以储备几乎无限大、广泛的分布范围、清洁无污染以及开发潜力大等优势,得到了国内外的重视。
茶红素是一类异质的酸性酚性色素的总称,其主要前体物为儿茶素和茶黄素类。科研人员在体外实验和动物学研究中发现,茶红素与儿茶素、茶黄素相比,有一些相似的生物学活性,如抗
赤泥是在氧化铝生产过程中排放出的工业固体废弃物,随着铝工业的发展,赤泥的排放量也在逐年增加。而目前,对于赤泥的处理只是通过简单的土场堆积、填埋和倒入海洋等方式,这些
结合宁波市轨道交通3号线南部商务站-鄞州区政府站区间及儿童公园站-樱花公园站区间的2个盾构联络通道试验工程,介绍了半套筒洞门密封技术应用于盾构始发阶段的施工流程。从
随着技术的进步、社会的发展,21世纪的深基坑工程也有了新的进展,越来越多的“大、深、紧”基坑如雨后春笋般出现,同时大型的地下综合体基坑工程、地铁明挖车站基坑工程设计形式
生态系统服务是连接人类福祉与自然资本的桥梁,探讨生态系统服务的时空动态及其权衡关系对实现干旱区区域可持续发展具有重要意义。本研究选取内蒙古自治区乌兰布和沙漠为研究区,基于千年生态系统评估提出的生态系统服务评估框架,借助GIS技术基于RUSLE和InVEST模型和方法,结合实地调研,刻画近30年(19902018)乌兰布和沙漠土地利用/覆盖时空动态,定量测算了近30年乌兰布和沙漠的水源涵养、土壤保持
政区调整或变动是一复杂而重要的学术论题,直接或曲折地反映了某一历史时段中央与地方、国家与社会的关系,体现出中央权威的某种意图或举措。不同历史时期的政区变化自有鲜明
<正> 一、立意求真,捕捉历史人物的生活真实。 真实是影视艺术的生命,影视化妆创作也是如此,只有寻求生活的真实才能有生命力,因为“生活是创作的源泉”。在生活真实的基础之