基于模糊文本还原的不良文本过滤方法研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:jsjfyy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的高速发展为信息的及时共享创造了良好的条件,网络中的信息也呈指数级的增长。但不容忽视的是,网络的发展是把双刃剑,一方面,大量丰富的信息涌入到互联网中,这使得用户能够更加高效便捷地获取所需要的信息;另一方面,不法分子也利用网络传播速度快这一特点,不断散播反动、色情等不良信息,危害网络健康环境,对现实社会的稳定和人民生活带来了不良影响,这种影响体现在青少年身上尤为明显。因此,净化网络环境、实现对网络中不良信息的有效过滤是当前网络安全建设中亟待解决的问题。网络中的信息存在的形式多种多样,其中以文本形式的信息为主,因此对于不良文本的过滤是不良信息过滤的重要组成部分。现阶段,对不良文本的过滤方法可以分为两种,一是借用文本分类的思想,将文本分为正常文本和不良文本,然后通过一定的方式将不良文本进行过滤;二是使用收集到的敏感词表对文本中的词汇进行匹配。本文借鉴二者的长处,设计了不良文本的过滤方法,本文的主要工作包括:(1)给出了模糊文本的定义。不良文本中会包含有各种不良词汇,不法分子为了能够将这类不良文本在网络中进行传播,发送前通常会将这些不良文本进行模糊处理。我们通过对大量语料的统计和分析,在多个维度上给出了模糊文本的定义和判定方案。(2)设计了模糊文本中字形模糊的还原方法。经过对不良文本的分析,总结出不良文本在字形上常见的几种模糊情况。根据其在字形上不同的模糊情况,结合实际的需要,收集了大量字形相关的数据,并针对不同的模糊情况设计了不同的还原方法。(3)将机器翻译模型应用到拼音转文字的还原方案中。现有的拼音转文字的方案在面对较长的文本时不能够很好的将拼音正确的转换。本文将拼音转文字视为机器翻译任务,并应用机器翻译中的Sequence to Sequence模型进行这一问题的求解,能够较好地将拼音转换为正确的汉字。(4)使用本文所提出的模糊文本还原方案对不良文本进行识别。我们从微博中爬取了包含不良文本的数据并进行标注,将本文所提出的识别方案和已有的文本审核API进行对比。实验结果表明,经过还原后的不良文本识别准确率高于未还原的准确率。
其他文献
Foxm1在细胞周期的调节、细胞命运的决定、胚胎发育、成体组织的稳态以及器官再生和衰老等生物学过程中具有关键作用,尤其在确保细胞分裂过程的精确度上扮演重要角色,抑制Foxm1
胚胎干细胞(Embryonic stem cells,ESCs)具有维持自我更新和多能性的能力,但在传统的有饲养层和血清的干细胞分离培养体系中很难建立昆白小鼠的ESCs系和山羊的ESCs系。有研究证明
学位
聚偏氟乙烯(PVDF)作为一种高分子聚合物分离膜材料,以其价格低廉、良好的化学稳定性和热稳定性,成为新型膜材料开发领域的优选材料。但是,PVDF膜具有较强的疏水性能,在实际应用过程中容易被污染,限制了PVDF膜的广泛应用。因此,对疏水性的PVDF膜进行亲水性改性以提高膜的抗污染性能,降低膜运行过程中的动力能耗是一个备受关注的问题。本文以过硫酸铵(APS)为氧化剂,采用原位化学氧化法制备得到插层的聚
为了全面查实查清全国土地的使用状况,及时掌握真实准确的土地基础数据信息,建立并完善土地统计、登记制度,实现土地数据资源信息的社会化信息化服务,满足国土资源管理以及经
甘蓝型油菜(Brassica napus L.)是世界范围内一种重要的油料作物,其油菜籽的品质和产量经常受到环境胁迫如盐害、干旱和病原微生物的影响。其中,核盘菌是一种重要的植物腐生性病
盾构法是目前常见的一种地下隧道暗挖施工方法。盾构施工过程中常穿越复杂上部结构引起土体扰动造成地表沉降及建筑物变形,超过一定限值甚至影响正常使用。因此,本文结合盾构法施工影响机理及作用规律,以某双线盾构隧道60°斜穿上部六层框架结构建筑物为工程背景,通过MIDAS/GTS有限元软件,分析盾构隧道施工对地表及地上建筑物的沉降变形特征,将结果与实测数据对比,在此基础上比较开挖顺序和位置关系两种因素下的变
研究背景和目的:胃癌是消化系统最常见的恶性肿瘤,在中国胃癌的发病率与死亡率排列在所有肿瘤前列。虽然手术治疗为胃癌主要的治疗手段,但化学治疗同样在胃癌治疗中发挥着非常重要的作用。然而,化疗易使胃癌产生耐药性并且其常产生毒副作用,导致胃癌的治疗效果及预后不尽人意。因此,探究胃癌的新的治疗方式存在着极大的意义。目前,用于化疗的药物主要是通过损伤肿瘤细胞DNA进而诱导其凋亡而发挥作用的。研究表明,在胃癌细
棉铃虫核型多角体病毒(Helicoverpa armigera nucleopolyhedrovirus,HearNPV)是杆状病毒GroupII的模式种之一,其基因组中的81号基因,HearNPV orf81,是一个功能未知的杆状病毒保守
瓜实绳Bactrocera cucurbitae(Coquillett)隶属双翅目 Diptera,实蝇科Tephritidae,果实蝇属BactraeeraMacquar,可为害寄主植物超过125种,是一种世界性检疫害虫,也是我国重要检疫性害虫之一。目前防治瓜实蝇最常用的方法是化学防治,但对环境和人类健康存在不良的影响,因此必须发展新型防治方法。运用遗传工程技术诱导昆虫性别失衡从而达到控制种群数