论文部分内容阅读
随着网络技术的发展,互联网逐渐成为人们取知识和信息的必不可少的来源。网络的发展扩大,信息量剧增,其开放性也日益增强。与此同时,由于网络资源缺乏统一的管理,许多不健康甚至恶意的内容掺杂其中,网络犯罪活动的现象也日渐增多。我国在全国范围内多次开展了打击淫秽色情网站的专项活动,但是除了执法部门的打击之外,还需要利用信息技术手段将色情、暴力、反动等敏感信息过滤,净化网络环境。当前网络上敏感信息的类型和传播方式多种多样,单纯采用某一种过滤技术难以有效的遏止敏感信息的传播,本文选题即以此为背景,研究敏感信息的监控技术,主要监控含有色情、暴力、反动等敏感信息的文本和图像信息,对以文本匹配和基于内容的图像识别为主要手段的网络敏感信息监控的关键技术进行了研究,采用了两者相结合的方式,建立文本匹配模型和图像识别模型并设计监控系统原型。对文本信息的监控,本文根据当前网络文本信息数量大、隐蔽传播的特点,结合WM算法和模糊匹配的思想,在精确匹配的基础上实现模糊匹配,以识别包含敏感词汇的网络文本信息。首先针对网络上敏感文本信息常用的三种隐蔽传播方式,对文本进行预处理,将模糊匹配转换成另一种形式上的精确匹配;接着使用WM算法搜索匹配的敏感关键词;若搜索到网页中出现某一关键词后,再对网页文字进行模糊匹配,设置一个相似度的阀值,以最后判别网页中是否包含敏感文字信息。对图像信息的监控,本文根据色情图像本身的特点——有较多裸露肌肤,采用肤色检测和纹理判别相结合的方式识别肤色区域以生成掩码图像。肤色信息是图像中最直接、最丰富的信息,在肤色检测算法中,可以应用许多颜色空间。本文采用YUV与YIQ颜色空间相结合的方法,利用先验知识与规则将肤色模型建立在YUV颜色空间的相位角θ和YIQ颜色空间的I分量的阀值上来判断,进行肤色检测。经过肤色模型检测后,由于颜色的相似会产生不必要的误检,通过比较与分析,采用一阶灰度统计方法建立纹理判别模型,来判断图像中某点及其周围部分是否具有皮肤区域的光滑特性。最后,根据肤色检测和纹理检测生成的掩码图像从原图像中提取三个统计特征值,进行SVM分类器的训练和敏感图像识别。本文最后构建了一个具有信息反馈与控制功能的基于智能代理的网络敏感信息监控系统,系统采用网页文本信息匹配和敏感图像信息识别相结合的方式,根据网页中敏感信息的分布情况判断其是否含有敏感内容,然后将敏感信息识别情况反馈并对此进行处理和记录。监控系统原型在图像识别前先进行网页文本识别,缩短了过滤时间,使之更具有实时性。本文的创新之处是:图像识别过程中将肤色检测、纹理判别及SVM分类相结合,提高了图像识别的正检率;应用方面,设计的网络敏感监控系统将敏感信息的检测与智能代理相结合,而不是跟浏览器结合,能实现一定范围内的自动搜寻。本文的内容分为五章,第一章绪论,简要介绍了论文的研究背景、意义和内容;第二章分析了当前常用的网络敏感信息监控技术;第三章介绍了敏感文本信息的监控技术,并建立了文本匹配模型;第四章详细描述了敏感图像信息的监控技术,并建立了图像识别模型;第五章设计和实现了网络敏感信息监控系统的体系结构和原型。