基于遗传算法的高维数据特征选择和特征子集的组合分析

来源 :中山大学 | 被引量 : 0次 | 上传用户:liyang137963
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物信息学、信息检索以及图像挖掘等大规模机器学习问题的不断涌现,对已有的特征选择算法和机器学习算法提出了严峻的挑战。人们迫切需要适应大规模数据集的特征选择算法和机器学习算法,并且对它们的准确性和运行效率等综合性能都有较高的要求。本文在高维数据的特征选择算法和基于特征选择的组合分类器构建问题上开展了研究。 文章提出了一种综合了Filter模型及Wrapper模型的特征选择算法FSRAGA。该算法首先利用特征与类别标签的相关性分析进行特征筛选,只保留与类别标签具有较强相关性的特征,然后针对经过筛选的精简特征子集采用遗传算法进行随机搜索,用分类错误率作为评价标准。实验比较表明,该算法能发现更好的特征子集从而实现降维并提高分类精度。 本文在FSRAGA算法的基础上,查找出一系列分类性能较优的候选特征子集,引用特征子集的稳定性概念作为评价标准,利用差异性较大的特征子集组合来构造组合分类器,实验表明该评价标准有助于提高组合分类器的性能。
其他文献
基因芯片可同时快速进行大规模的基因表达水平测定,是人们了解基因组序列作用和功能的强有力工具。对基因芯片杂交反应后的图像进行快速、准确、高效、自动化的处理,从而为基因
本文提出了一种通过静态分析提取宏动作的方法。静态分析的对象是基动作之间的关系。首先经过分析问题域,特定的选取一些常量对动作实例化,得到一些基动作。然后分析这些基动作
为提升物流管理的效率和准确率,本文协助物流企业把日常的物流管理平移到信息系统中,结合企业的物流管理流程和具体内容,开发了一套物流管理信息系统,系统的各模块充分针对物流企
无线网状网是近年来迅速发展起来的一种新技术,它解决了当前无线局域网覆盖范围小、可靠性差等缺点。无线网状网的无线访问点(AccessPoint)之间通过无线方式组成网状结构,提供
随着通信技术的迅猛发展,飞速膨胀量成了下一代无线网络中最关键的问题。而中继以其性能佳、易于拓展部署方便等优势在新一代网络标准中占有一席之地。本文挑选了三个典型的
路径规划、寻路问题是当前计算机科学领域中具有较高研究价值的一类问题,在计算机网络路由算法设计、机器人探路、交通路线导航、人工智能、交互虚拟现实等系统中有着广泛的
WEB上的数字化信息呈爆炸式增长,Internet已经成为一个巨大的信息数据库。要在如此庞大且瞬息万变的Internet上获取所需的信息,必须一个有效的检索工具的协助。现有的搜索引
随着Internet的快速发展,网络的应用范围越来越广泛,如何保证以及提高网络的服务质量(Quality of Service,QoS)成为至关重要的问题。流量工程(Traffic Engineering,TE)就是为
随着互联网的迅速发展,Web已经成为就业信息的重要来源。抽取并合理地保存这些信息,对于进一步分析就业信息,了解就业状况和特点,制定就业方案具有十分重要的意义。由于Web上
数字水印技术作为多媒体数据版权保护和内容可靠性认证的一种新技术,自20世纪90年代以来得到了迅速的发展,成为当前国内外研究的一个热门课题。数字水印是在不影响多媒体产品(