论文部分内容阅读
特征选择和提取技术是当前信息领域,尤其是模式识别领域的研究热点之一。随着人工智能、计算机技术的迅速发展和应用领域的不断拓宽,特征选择和提取方法得到了较大的发展,这方面基于统计或机器学习的理论研究成果不断出现,其中的一些已在实际工程应用中显示出巨大的发展潜力。 本文主要讨论基于支持向量机的特征选择方法的理论研究工作及其相关的应用。考虑到特征选择算法应用领域的广泛性,文中选取了化工领域,生物信息领域中的多个不同类型的应用数据集作为算法分析和测试的对象。这些对象的特征所具有的相互关系涵盖了现实当中特征间可能存在的大部分关系,例如不相关、线性相关和非线性相关等。文中以应用的领域为线索,以支持向量机为特征选择算法的基本工具,对这些问题的处理方法加以阐述,并初步解释了所选择的重要特征的物理意义。为了进一步的考察算法的实用性,我们选择以模糊支持向量机为代表的几种决策工具建立诊断系统,对该特征选择算法的性能作出了一个综合性的考察。 本文的主要内容如下: 1) 介绍了特征选择算法发展的各个分支方向及发展态势。对国内外当前的研究成果进行了详尽的分析和阐述,指出了理论研究和实际应用中所存在的困难和一些亟待解决的问题,并提出了一种可供实际应用的解决对策。 2) 目前生物信息癌症诊断数据集中普遍存在高维度、小样本情况。在这些数据集上,传统的基于统计的和基于线性分类器的特征选择方法难以奏效,本文提出了一种基于遗传算法和非线性核支持向量机的特征选择方法。用遗传算法来确定进行特征选择操作的非线性核支持向量机的核参数和惩罚参数。实验中的各项参数表明,所提出的算法在性能上要优于基于统计的和基于线性分类器的特征选择方法,且所选择的特征具有较为明显的生物意义。 3) 基于遗传算法和非线性支持向量机的特征选择算法虽然能够在一定程度上取得较为满意的效果,但是它的运算效率较低,还不能满足实际应