网络PDF文档敏感内容防控系统设计与实现

来源 :西南交通大学 | 被引量 : 0次 | 上传用户：woxxlong

【摘要】

：

【作者】

：

刘邦国

【出处】

：

西南交通大学

【发表日期】

：

2020年03期

【关键词】

：

敏感内容防控 PDF文档内容提取模式匹配目标情感分析

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息技术的飞速发展,网络充斥在我们生活的各个角落。在带给人们种种便利的同时,互联网也成为涉及色情、暴力、反动等不良敏感文本迅速传播的媒介。PDF作为一种轻便的文档形式,越来越多地出现在网络传输中,其中携带的不良文本信息的传播,不仅污染网络环境,也危害着社会的和谐稳定。然而,针对PDF文本内容防控的研究还没有完全成熟,如何高效准确地辨别PDF文档中文本内容的敏感性是一个重要课题。由于PDF文档汉字编码的特殊性且缺少足够的开源资源,目前国内针对在线网络环境下中文PDF文档敏感内容防控方面的研究还不充足,所以展开针对网络传输的PDF文档的敏感内容防控仍然是网络安全领域函待解决的关键问题。由于PDF文档的敏感内容防控系统需要在实时在线网络环境下运行,所以在PDF文档解析及敏感性判别的过程中,对处理速率和识别准确度等有很高的要求。本文在实现网络PDF文档敏感内容防控系统的基础上,提出了PDF文档stream流标签快速定位算法SLQP算法和文本内容流高效匹配算法PB-WM算法,以及基于注意力的双向区域LSTM网络模型进行目标情感分析来优化系统的识别准确度。对于内容标签的定位,实际上即为一种特殊的单模式匹配问题,该问题中模式特征和数据类型明确,而常见的单模式匹配算法无法利用这些特点,基于此本文设计了一种简单高效的单模式匹配算法。在实际现网环境下比较,对于静态PDF文档的内容标签定位问题,本文提出的SLQP算法匹配效率高于其他经典的单模式算法。对于PDF文本的敏感内容审查,特别是针对多个敏感词同时匹配的多模式匹配问题,本文基于中文PDF文本的编码规则,研究实现了一种适用于中文PDF文本内容的高效多模式匹配算法PB-WM算法。在中文PDF的文本内容匹配问题上,经过实验对比,PB-WM算法相比于其他多模式匹配算法具有更高的匹配效率。为了使得敏感内容防控系统对于PDF文档敏感性判别更准确,本文提出一种敏感词情感极性双重判断方案:即构建基于注意力的双向区域LSTM模型来对敏感词进行目标情感分析,从而准确判别敏感词的褒贬之意。此外,为了扩展敏感词范围,敏感内容防控系统基于Word2vec识别出敏感词的同义词,从而使系统功能更加完善。最后,论文以反向代理机制为框架,通过截取TCP流量,提取其中的PDF文档进行内容敏感判别,从而实现了网络PDF文档的敏感内容防控系统。测试表明,该系统可以满足对于在线网络中PDF文档的实时敏感判别。论文的相关分析工作为后续研究高效PDF内容防控技术具有一定的参考价值。

其他文献

幼儿园混龄户外体育活动探究

随着幼儿教育的不断发展,其教育方式也呈现出多样化的特点。一种打破年龄、班级界限的混龄户外体育活动,在幼儿园中得到了较好的运用,有助于促进幼儿的综合发展。本文对幼儿

期刊

幼儿园混龄户外体育活动

基于工业物联网云平台的轴承故障诊断分析

传统工业设备运维的定期维修模式,导致设备存在维修不及时、运维成本高等问题。基于人工智能算法的设备故障诊断的出现为设备运维提供了新的解决方案。当前大多数针对设备故

学位

故障诊断工业物联网Kafka集群卷积神经网络

中、法中学数学教育的比较研究——以中、法中学生交流活动中部分数学竞赛题为例

一、问题提出2014年是中法建交50周年,在这喜庆的日子里,两国人民不仅在政治、经济领域进行了深入交流,而且在教育文化领域也进行了非常友好的探讨.在庆典会上,由中、法双方

期刊

中学数学教育数学竞赛题交流活动中学生问题提出中法建交经济领域文化领域

男性性病患者衣原体和支原体感染的血清流行病学研究

近年来沙眼衣原体(Ct)和人型支原体(Mh)引起人类泌尿生殖道感染被列入性传播疾病,国内对这类疾病研究较少。为了解男性性病患者中衣原体和支原体感染频率及分布特点,作者于19

期刊

性病患者血清流行病学性传播疾病人型支原体泌尿生殖道感染抗体检测抗体阳性率间接血凝试验男性健康性病防治

间隙式低指数粘滞阻尼器的阻尼特性研究

粘滞阻尼器是一种新型耗能减震装置,吸收和耗散外部输入的能量以达到减震耗能的目的,在工程领域中被广泛应用。粘滞阻尼器是一种速度相关型的阻尼器,一般情况下,阻尼器的速度指数范围为0.31.0,速度指数的大小影响阻尼器的耗能能力的强弱。间隙式粘滞阻尼器中,流体介质在阻尼间隙中流动情况可认为是平行平板缝隙流动。本文考虑了介质的物理属性,从基本流体力学理论出发,推导出间隙式粘滞阻尼器的输出阻尼力计算模型。基

学位

低指数间隙式粘滞阻尼器剪切稀化特性动态刚度

《纽约时报》中冬奥会主办国国家形象研究（2010-2018）

在新时代的国际竞争中,国家形象地位日益重要,其国家形象研究也日益成为人文社会学科关注的热点课题之一,究其原因是塑造良好的国家形象有利于提高国家的综合实力。每个国家

学位

国家形象冬奥会《纽约时报》框架理论语料库批评话语分析

浅谈如何提升公共图书馆残障人士公共文化服务水平——以安徽省图书馆为例

图书馆作为推进公共文化服务体系建设的一个重要环节，图书馆的公共文化服务水平直接影响着当地的文化建设水平。本文以安徽省图书馆为例，通过分析图书馆残障服务的举措与不足，针

期刊

残疾人公共文化服务图书馆

加味清金化痰汤治疗老年慢支炎急性发作（痰热郁肺型）临床疗效及对PA、CRP影响的研究

目的:研究加味清金化痰汤治疗老年慢性支气管炎急性发作(痰热郁肺型)临床疗效、改善中医证候、安全性及对PA、CRP的影响。方法:将符合纳入标准的急性发作期老年慢性支气管炎(

学位

清金化痰汤痰热郁肺证前白蛋白C反应蛋白老年慢性支气管炎

培训心得体会

11月12日到16日,我有幸参加了由武汉大学信息管理学院和安徽省图书馆共同举办的中青年馆员业务培训班。短短一周时间让我受益良多,收获满满。非常感谢安徽省图书馆给我这次宝

期刊

业务培训班心得体会社会主义核心价值观安徽省图书馆信息管理学院青年馆员武汉大学教育公平

上海保险业成立保险宣传委员会

上海市保险同业宣传委员会于8月23日在上海市保险同业公会会议室召开第一次全体委员会议，推选了主任委员和副主任委员，讨论通过了二ОО六年下半年宣传工作计划和二ОО七年的

期刊

上海市保险学会委员会议保险宣传保险业保险同业公会宣传工作副主任会议室

网络PDF文档敏感内容防控系统设计与实现

与本文相关的学术论文