论文部分内容阅读
互联网以其巨大的信息资源和快捷的传播速度给人们的信息交流带来了前所未有的便利,但同时,由于互联网的开放性、匿名性等特点,使它在为人们提供便利的同时,也将许多不良信息(反动、色情、暴力、迷信内容等等)携带而来。这些不良信息严重干扰着互联网的正常秩序,成为用户获得有效信息的障碍。其中的一些不健康的言论及思想,给国家和个人的信息安全带来了诸多隐患,特别是对青少年的健康成长有着极其不利的影响。因此如何有效监管互联网上的信息,阻止不良信息的传播,保障网络的内容安全,成为当前重要研究课题之一。本文通过对各类不良文本特征的深入分析,结合中文信息处理、模式识别、机器学习等学科的相关知识,对不良文本信息过滤的文本预处理方法、文本特征选择方法等作了深入的研究,并通过实验对研究结果进行了验证。具体工作如下:(1)从传播途径、内容形式、统计等不同角度深入分析了不良文本的特征,并对其中的特殊形式的不良文本进行了相应的预处理。采用有限自动机对其中的特殊词进行识别,将其作为不良文本特有的特征加以利用,并建立拼音汉字对照表和部首汉字对照表,对这些不良文本进行还原,使其能适合于基于分词的方法处理。(2)介绍最大熵模型的原理,及其在特征选择和参数估计中所用的相应方法。比较了目前常用的文本分类特征选择方法,结合不良文本的特点,提出了一种适合于不良文本识别的特征选择方法——两步特征选择方法。并对其效果进行了验证。(3)设计并实现了一个不良文本识别的实验系统。先对训练文本进行预处理,用两步特征选择方法生成特征集,根据特征集将训练文本表示成特征向量,训练得到最大熵模型,对测试文本用同样方法表示成特征向量,用训练得到的模型测试,根据测试结果进行识别。实验结果表明两步特征选择方法可适用于不良文本的识别并取得较高的准确率和召回率。