论文部分内容阅读
近年来,政治、经济、贸易、文化等行业的区域化、全球化的飞速发展,使当今社会信息量急剧增加。丰富的信息源虽然给人们获取知识带来了便利,但同时也迫使人们花费大量的精力从中查找有用资源。另外,Internet并不是一个完全封闭的环境,更不可能是一方净土,暴力、色情、反动等文化垃圾的侵扰,使人们的身心健康受到了严重影响。因此如何轻松准确定位感兴趣的信息,滤除无关或非法的不良信息已成为信息时代的重要任务之一。信息过滤技术是解决上述问题的有效方法,由于目前网络上的绝大部分信息都是文本信息,因此,本文的研究也主要针对文本信息的过滤处理。本文对基于内容的网络文本信息过滤中所涉及的关键技术进行了探讨,并重点研究了基于混沌粒子群算法的过滤模板构建方法。主要工作包含以下三个方面:1、针对PSO算法易发生早熟等问题,提出了一种改进的混沌PSO算法该方法根据混沌序列具有良好遍历性的特点,使用立方映射产生的混沌序列对粒子位置进行初始化,增强全局搜索的多样性;然后使惯性权重随粒子适应值而变,以提升收敛速度;当算法陷入早熟时,采取混沌扰动策略,使算法跳出局部最优。实验结果表明,无论从收敛速度还是收敛精度来看,改进算法都有了明显提高,并且能有效地避免早熟。2、提出了一种基于改进粒子群算法的过滤模板构建方法该方法采用改进的混沌粒子群算法对特征子集进行优化,并提出一种基于相似度、分类准确率及特征个数的粒子适应度评价体系。另外,考虑到粒子每一代更新都需要训练分类器,将增加算法的时间复杂度,因此采用并行计算方法进行加速。实验结果显示,用该方法进行特征选择,能够有效而且快速地抽取出问题空间的最优特征子集。3、设计并实现了基于以上改进策略的网络文本信息过滤系统将本文提出的基于改进的混沌粒子群算法的过滤模板构建方法应用于网络文本信息过滤系统中,根据用户的需求实现网络信息的实时过滤,提高过滤系统的效率,并保证系统的过滤准确性及稳定性。