一种基于累计适应度遗传算法的快速文本分类器

来源 :重庆大学 | 被引量 : 0次 | 上传用户:bbyyqq555
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据挖掘文本分类研究领域中,同时基于遗传算法与基于支持向量机的多分类技术开始引起部分学者的关注,该算法体系的特色是在借鉴遗传算法的自适应寻优秀特征以构造最优二叉树结构的同时,采用支持向量机技术在高维度环境下突出的效果,自动构建二叉树节点,分类效果得到广泛认可。针对基于遗传算法(Genetic Algorithm,GA)的支持向量机(Support Vector Machine,SVM)多分类决策树算法(GA-SVM)中全局优化缺陷以及时间复杂度较高的问题,做了两方面工作,其一是通过重新定义遗传适应度函数(fitness),提出一种累计适应度(cumulative fitness),进而衍生出新算法CFGA-SVM,其二在CFGA-SVM的基础上,修改了多项式核函数的选择算子,产生新的改进的基于遗传算法的支持向量机快速多类文本分类算法BCFGA-SVM,降低了CFGA-SVM算法的时间复杂度,同时也能保证分类精度与全局寻优能力。BCFGA-SVM算法同CFGA-SVM算法思路相同,都是从根节点开始逐层构造二叉树,首先对根节点基因实值编码,通过基因分裂操作产生子代种群,然后利用累计适应度筛选出新的种群,筛选出的种群并不一定是当代局部最优,但一定是所得二叉树中全局最优,从而提高分类精度,最后以此循环直至算法结束,与CFGA-SVM算法不同的是,在计算适应度时,BCFGA-SVM采用自动选择核函数映射的方法,根据当前样本的分布情况,灵活的选取多项式核函数的参数d,避免了多余的高维向量计算,在一定程度上能缩小时间复杂度。最后利用实验结果表明:BCFGA-SVM较之传统的GA-SVM算法在全局优化能力、分类精度上有明显提高,并且在时间复杂度方面较CFGA-SVM更小,进而验证了该算法的应用可行性与性能有效性,可在高维度样本的分类应用中推广。
其他文献
近年来,图像分割成为计算机视觉和图像处理技术中备受关注的一个前沿方向,其研究在智能监视系统、军事应用等领域都有广阔的应用前景和理论意义。本文以图像分割和图像后处理
电子政务建设的目标是向公众提供公共服务,如何向公众提供准确有效并个性化的公共服务成为了电子政务建设方面的重要课题。本论文针对电子政务环境下缺乏用户浏览行为收集、
本文讨论了两个自然带前瞻的在线最大化问题,并分析了竞争比的上下界。对在线信道分配问题,我们给出了一个O(n~2)的离线算法,一个(K+1)/K的竞争比下界,和一个(1+1/((?)(K-1)/
近年来,随着全球信息化进程的加快,人们在享受网络带来的资源共享及信息交流方便快捷的同时,也不得不面对越来越多的来自网上的恶意攻击,所以,网络安全作为一个严肃的问题呈
由于数据缺乏语义信息及其查询处理缺乏语义支持,传统基于关键词的信息查询只能查找出与用户查询条件在语法层上匹配的信息,而无法给出与其在语义层上具有相关性的其它信息,从而
随着信息与通信技术的飞速发展,信息安全日益受到人们的重视。密码技术是信息安全技术的核心。在加密算法中,IDEA和ECC是安全性较高的加密算法。本文在充分研究原IDEA算法的
随着GIS的快速发展,以移动终端为载体的移动地理信息系统(GIS)已成为地理信息系统研究的热点。同时,卫星通信技术不断成熟,其业务内容、产业规模都不断发展,目前,只需少数的几颗通
随着计算机网络和Internet的普及,运用先进的管理信息系统及软件开发平台,对信息进行科学化和网络化管理,已经成为高校信息系统的发展趋势。目前,几乎所有高校的职能部门都已经建
随着互联网的快速发展,网络信息以惊人的速度激增,处在一个“信息爆炸”时代,如何快速准确地获取我们所需要的信息的需求使得文本分类已成为一个非常重要的课题,同时,文本分
出于软件过程以及软件过程改进对软件开发的成功被证明起着越来越重要的作用,人们对于软件过程及软件过程改进的研究也就做了越来越多的研究。在经过了对软件过程及软件过程