论文部分内容阅读
【中图分类号】G633.91 【文献标识码】 A 【文章编号】(2011)02-0091-02
【摘要】最优特征子集选择即是从大量已知的文本特征集合中选择出最能代表文本分类模式的特征的过程。但是由于遗传算法固有的一些属性,使得遗传算法在应用过程中存在一些问题.例如,初始设置参数值的不合理以及参数值不能随着搜索过程而的进行变化。为此本文引入模糊逻辑控制遗传参数设置的思想,实验证明,使用模糊控制器进行参数控制对寻找最优特征子集是可行的。
【关键词】最优特征子集;遗传算法;模糊逻辑
1 引言
随着网络信息在各种领域的不断发展,各种各样的网络信息使人们应接不暇。这就需要我们对网络进行过滤和选择,去除一些不良信息和垃圾信息,净化网络空间。网络信息过滤是解决这一问题的有效方法之一。
由于遗传算法在初始设置参数(交叉率、变异率、种群规模)时存在盲目性和不合理性,导致不能正确找到最优特征子集。为解决这一问题,本文提出了基于模糊理论思想的模糊遗传算法(Fuzzy-GA)。设计给出了一种模糊遗传算法,并将其应用于最优特征子集选择。
2 最优特征子集问题
最优特征子集问题(OFSS)实质上就是对原始特征空间进行降维,特征子集越小,对分类贡献就越大,就越能代表分类问题,这样就可以大大提高了分类精度,使搜索能力得到显著提高。
3 模糊遗传算法求解文本最优特征子集的关键技术
遗传算法是一种的搜索策略,从代表问题的可能潜在解集的一个种群开始的,而一个种群则由经过基因和编码的一定数目的个体组成,然后经过遗传操作选择、交叉和变异产生出新的解集种群,使后生代种群比前代更加适应于环境,然后再把末代种群中的最优个体进行解码输出,即可得到问题的最优解。
4 基于模糊逻辑的遗传算法
4.1 基于模糊逻辑的遗传算法介绍。遗传参数当中的交叉率,变异率及种群规模是实现遗传算法搜索的重要参数。因此他们的设置是否合理直接影响到遗传算法搜索的性能。
4.2 模糊控制器设计思想。由于遗传参数在遗传算法优化过程中非常重要,代表了遗传进程的好坏以及是否能够达到最优解。 交叉率和变异率的变化受多种因素的影响,在进化早期,由于种群数量低 ,可适当的增大变异率,以保持种群的多样性。
一个模糊逻辑控制器一般四部分组成:规则库、模糊化环节、推理机、反模糊化环节,如下图所示:
图: 模糊逻辑控制器一般结构
在其中模糊控制规则是模糊控制器的核心。根据已有的知识与经验将分析归纳后的输入、输出变量用模糊语言来进行描述,得到的模糊语言集合就是模糊控制规则。模糊控制规则的生成有以下四种方法:
1)根据专家经验或过程控制知识生成;
2)根据过程模糊建模生成;
3)根据对手工控制操作的系统观察和测量生成;
4)根据学习算法生成。
根据它们之间的关联就能简要的得出这三种因素控制交叉率和变异率的控制语言描述:
1)遗传环境↑,则交叉率↑,变异率↓
2)遗传环境↓,则交叉率↓,变异率↑
3)种群数量↑,则交叉率↑ ,变异率↓
4)种群数量↓,则交叉率↑ ,变异率↑
5)适应度 ↑ ,则交叉率↑ ,变异率↓
6)适应度 ↓ ,则交叉率↑ ,变异率↑
其中 ↑ 表示增大或优良; ↓ 表示降低或恶劣
5 实验结果分析
针对以上提出的模糊遗传思想,为证明其有效性,根据其算法思想我们进行了一般遗传算法和模糊遗传之间的试验比较。首先选择使用的文本库,共选择2000篇文本,从中随机选择1000篇文本作为训练集,再选出500篇作为测试集,,使用查全率与准确率来评价算法的有效性,在实验中处理的是经过切词(去掉停用词,低频词,无用词)以后的原始特征向量空间,,比较结果如下:
算法比较 查全率 准确率
GA 85.32% 85.02%
FGA 90.31% 93.20%
6 结论
本文根据遗传算法进化特点及各种操作的性质,将遗传操作与文本特征选择进行结合,并将模糊逻辑思想应用到遗传操作中,设计出基于模糊运算思想的模糊控制器来动态调节交叉率和变异率——即模糊遗传算法。经试验结果表明,使用模糊遗传操作进行文本的特征选择要比传统遗传算法的收敛性能要更加优良,提高了在进化过程中遗传参数环境的能力。
参考文献
[1] 李欣,王科俊,李国斌,金鸿章.模糊遗传算法综述.黑龙江自动化技术与应用[J].1998,3:16-19.
[2] 王兴成,郑紫薇,贾欣乐.模糊遗传算法及其应用研究.计算机技术与自动化[J]2000,19(2):5-9.
[3] 刘永国,李学明,张伟,彭军,廖晓峰,吴中福.基于遗传算法的特征子集选择.计算机工程[J].2003,6(29):19-21.
[4] 何宏,钱锋.基于寿命的变种群模糊遗传算法.小型微型计算机系统[J].2006,27(6):992-995
【摘要】最优特征子集选择即是从大量已知的文本特征集合中选择出最能代表文本分类模式的特征的过程。但是由于遗传算法固有的一些属性,使得遗传算法在应用过程中存在一些问题.例如,初始设置参数值的不合理以及参数值不能随着搜索过程而的进行变化。为此本文引入模糊逻辑控制遗传参数设置的思想,实验证明,使用模糊控制器进行参数控制对寻找最优特征子集是可行的。
【关键词】最优特征子集;遗传算法;模糊逻辑
1 引言
随着网络信息在各种领域的不断发展,各种各样的网络信息使人们应接不暇。这就需要我们对网络进行过滤和选择,去除一些不良信息和垃圾信息,净化网络空间。网络信息过滤是解决这一问题的有效方法之一。
由于遗传算法在初始设置参数(交叉率、变异率、种群规模)时存在盲目性和不合理性,导致不能正确找到最优特征子集。为解决这一问题,本文提出了基于模糊理论思想的模糊遗传算法(Fuzzy-GA)。设计给出了一种模糊遗传算法,并将其应用于最优特征子集选择。
2 最优特征子集问题
最优特征子集问题(OFSS)实质上就是对原始特征空间进行降维,特征子集越小,对分类贡献就越大,就越能代表分类问题,这样就可以大大提高了分类精度,使搜索能力得到显著提高。
3 模糊遗传算法求解文本最优特征子集的关键技术
遗传算法是一种的搜索策略,从代表问题的可能潜在解集的一个种群开始的,而一个种群则由经过基因和编码的一定数目的个体组成,然后经过遗传操作选择、交叉和变异产生出新的解集种群,使后生代种群比前代更加适应于环境,然后再把末代种群中的最优个体进行解码输出,即可得到问题的最优解。
4 基于模糊逻辑的遗传算法
4.1 基于模糊逻辑的遗传算法介绍。遗传参数当中的交叉率,变异率及种群规模是实现遗传算法搜索的重要参数。因此他们的设置是否合理直接影响到遗传算法搜索的性能。
4.2 模糊控制器设计思想。由于遗传参数在遗传算法优化过程中非常重要,代表了遗传进程的好坏以及是否能够达到最优解。 交叉率和变异率的变化受多种因素的影响,在进化早期,由于种群数量低 ,可适当的增大变异率,以保持种群的多样性。
一个模糊逻辑控制器一般四部分组成:规则库、模糊化环节、推理机、反模糊化环节,如下图所示:
图: 模糊逻辑控制器一般结构
在其中模糊控制规则是模糊控制器的核心。根据已有的知识与经验将分析归纳后的输入、输出变量用模糊语言来进行描述,得到的模糊语言集合就是模糊控制规则。模糊控制规则的生成有以下四种方法:
1)根据专家经验或过程控制知识生成;
2)根据过程模糊建模生成;
3)根据对手工控制操作的系统观察和测量生成;
4)根据学习算法生成。
根据它们之间的关联就能简要的得出这三种因素控制交叉率和变异率的控制语言描述:
1)遗传环境↑,则交叉率↑,变异率↓
2)遗传环境↓,则交叉率↓,变异率↑
3)种群数量↑,则交叉率↑ ,变异率↓
4)种群数量↓,则交叉率↑ ,变异率↑
5)适应度 ↑ ,则交叉率↑ ,变异率↓
6)适应度 ↓ ,则交叉率↑ ,变异率↑
其中 ↑ 表示增大或优良; ↓ 表示降低或恶劣
5 实验结果分析
针对以上提出的模糊遗传思想,为证明其有效性,根据其算法思想我们进行了一般遗传算法和模糊遗传之间的试验比较。首先选择使用的文本库,共选择2000篇文本,从中随机选择1000篇文本作为训练集,再选出500篇作为测试集,,使用查全率与准确率来评价算法的有效性,在实验中处理的是经过切词(去掉停用词,低频词,无用词)以后的原始特征向量空间,,比较结果如下:
算法比较 查全率 准确率
GA 85.32% 85.02%
FGA 90.31% 93.20%
6 结论
本文根据遗传算法进化特点及各种操作的性质,将遗传操作与文本特征选择进行结合,并将模糊逻辑思想应用到遗传操作中,设计出基于模糊运算思想的模糊控制器来动态调节交叉率和变异率——即模糊遗传算法。经试验结果表明,使用模糊遗传操作进行文本的特征选择要比传统遗传算法的收敛性能要更加优良,提高了在进化过程中遗传参数环境的能力。
参考文献
[1] 李欣,王科俊,李国斌,金鸿章.模糊遗传算法综述.黑龙江自动化技术与应用[J].1998,3:16-19.
[2] 王兴成,郑紫薇,贾欣乐.模糊遗传算法及其应用研究.计算机技术与自动化[J]2000,19(2):5-9.
[3] 刘永国,李学明,张伟,彭军,廖晓峰,吴中福.基于遗传算法的特征子集选择.计算机工程[J].2003,6(29):19-21.
[4] 何宏,钱锋.基于寿命的变种群模糊遗传算法.小型微型计算机系统[J].2006,27(6):992-995