不良短文本变体的识别

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:cjw37600
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的发展给人们的生活带来极大的便利,人们通过网络获取信息变得越来越便捷。大量的信息充斥着我们生活的同时,一些不良分子出于利益的目的,发布了一些包含有色情暴力、政治敏感和广告促销等不良敏感信息。这些不良信息会对人们的财产和身心健康造成恶劣的影响,也给社会和国家带来不稳定因素。现有的网络监管平台通过设置敏感词的关键词表来对这些不良信息进行过滤,这种方法对不良文本中使用的规范敏感词的识别效果很好,实现起来也比较简单,然而近年来,很多恶意的发布者为了避开网络监管平台的审查,会将不良文本中的敏感词进行变体,这些变体的敏感词特征多样,含义隐晦,给网络监管平台的识别带来极大的挑战。针对上述的问题,本文通过研究不良文本变体特点、分析现有的过滤算法优缺点的基础之上,提出了基于Stacking组合的不良文本变体的识别模型,并在这基础上进行改进。首先,目前用于不良文本变体识别任务的开放语料相对匮乏,本文收集了网络上一些不良文本及其变体,然后通过去除非法字符、中文分词等文本预处理,来构建文本的数据集。接着在研究词向量的离散表示和分布表示的基础之上,结合不良文本变体的特点,使用Word2vec进行词语向量的表示,来挖掘敏感词变体后和目标词之间的联系。其次,通过分析现有的字符串匹配算法、数据挖掘中关联分析算法和传统机器学习中贝叶斯算法在不良文本变体识别中的优缺点,提出基于卷积神经网络、循环神经网络不良文本过滤算法。同时为了加速训练,对模型的输入进行进一步优化,接着使用简单快速的多层感知机进行不良文本变体过滤。最后,由于卷积神经网络难以捕捉到长序列的间的相互联系;循环神经网络可以学习长序列但无法并行计算;多层感知机会失去词语的语义信息。于是,在本论文中,将它们作为初级分类器,然后采用集成学习中Stacking组合模型的方法进行构建不良文本变体识别的模型,并在Stacking模型基础上进行改进,进一步提高识别的正确率。
其他文献
中小企业在我国占比超过80%,其GDP的贡献率也已超过全国GDP总量的一半以上,所以经济的快速发展,离不开创业活动,广泛的创业活动也正是推动经济发展及技术进步的生力军。但经调查发现,中小企业的企业寿命平均为3.8年,“三年无活,四年亡”是创业企业的普遍现象,大学生的创业成功率更是远远达不到预期。这一问题引起了广大学者的关注,本文尝试通过对河北地区创业大学生的数据调查,实证分析创业胜任力对创业绩效的
随着无线充电市场的井喷式发展,无线充电功率发射机和功率接收机间的能量传输效率问题,已成为无线充电领域的研究热点。接收端线圈作为无线充电系统的重要组成部分,直接影响
随着目前国内外建筑技术的日新月异,空间大跨度结构也被越来越频繁地使用。以大连东港C05地块综合体项目为例,综合分析裙楼屋面28 m大跨度平面桁架施工的两种施工方案:格构柱
在雾霾天气下或弱光照条件下所采集的雾霾图像、弱光照图像或红外图像将会显著退化而呈现出纹理缺失、对比度低、动态范围压缩等负面特征,而鉴于机器视觉系统中涉及图像理解
目的研究不同浓度的福善美对骨水泥疲劳性能的影响以及模拟人体体液浸泡对其的疲劳性能影响。方法以单纯丙烯酸骨水泥为对照组,根据阿仑膦酸钠(由福善美折合以后)与骨水泥的
会议
失重导致的骨量丢失已经成为近年来航天医学家研究的重点问题,但目前关于微重力环境下骨丢失的预防药物还有待探索。本文选用中国传统中药白术作为实验材料,从中提取出白术多
随着乡村振兴和农业供给侧结构性改革的推进,国家对农村脱贫、传统产业转型升级以及农村一二三产业融合等政策举措的完善和落实,休闲农业作为振兴乡村产业的重要举措得到了普
相变材料(Phase Change Materials,PCMs)的导热系数通常较低,因此常用高导热纳米颗粒来增强相变材料的固有导热性能。为研究纳米颗粒种类、含量和分散剂对纳米增强型复合相变材料(Nano-enhanced PCMs,NePCMs)传热过程的影响,本文采用纳米石墨(Nano Graphite,NG)和纳米椰壳炭(Nano Coconut shel l based-charcoal,
药物共晶是共晶形成物(cocrystal coformer,CCF)与药物活性成分(active pharmaceutical ingredient,API)通过一定化学计量比,以分子间非共价键作用而形成。其最大的特点就是
本文主要包括兩個部分:一,簡單說明現有西夏語譯《尊勝經》文本收藏,及版本內容之比較。附帶說明,西夏故地流傳的漢文本《尊勝經》與《大正藏》所收諸漢譯本,實為異本異譯。