论文部分内容阅读
特征提取是机器学习、模式识别和数据挖掘等领域中的一个关键问题,它是研究如何从高维特征数据中提取出那些对分类识别最有效的特征,从而实现对特征空间的降维,进而实现更好地识别、分类。随着计算机硬件快速而持续的发展,特别是伴随着互联网和通信技术的发展,数据量正以极高的速度增长。近年来,一些高维特征领域的兴起,比如基因检测、文本检索等,更使得数据呈现海量高维的态势。面对海量高维的信息,当务之急是拨冗见真,对之进行有效的信息提取。因此广泛应用于计算机各项自动化处理的预处理操作一特征提取就显得尤为重要。
关于特征提取方面的研究已有不少较为成熟的方法。从形式上可以分为特征选择和特征抽取,基于这两种形式的特征提取算法,在性能的改进也是研究人员们所关注的热点。目前已有的方法,都是以找到一组适合全体样本的属性子集为目标的。考虑到样本之间的差异性,多侧面(Multi-side)特征提取方法把样本集分成若干子集,对每个子集选取各自适合的特征子集的做法,是一种创新。
本文所做的主要工作和创新点如下:
1、本文首先对特征提取的相关特性进行研究。
2、重点分析了一种主要的特征选择技术粗糙集(RoughSets)属性约简,和一种特征抽取技术主成分分析PCA(Principal Component Analysis)。详细分析二者的适用性和局限性以及它们的扩展模型。
3、介绍基于多侧面思想的特征提取方法,详细分析了多侧面方法的计算性能和特征提取过程,实例证实了多侧面方法的有效性。将多侧面方法应用在UCI数据集上。实验数据证明多侧面特征提取方法的有效性。
4、从多侧面特征提取方法的侧面大小和侧面多少两方面,对多侧面方法进行性能分析。实验结果表明,选取合适的侧面大小和分侧面次数对多侧面特征提取方的有效执行具有重要作用。通过对实验结果的分析,给出了侧面大小和侧面多少选取的一般性规律。为多侧面方法的有效运行提供了实验数据支持。
本文对多侧面特征提取方法的研究做了一些工作,在今后可以从以下两个方面进一步展开研究工作:
1、本文给出了侧面大小和侧面多少与多侧面方法执行效率之间的一般性规律,在此基础上,可以对多侧面方法运行时具体使用的最优属性个数或者是与原属性空间维数的一个比值,以及侧面选择的具体个数的确定做进一步研究;
2、多侧面特征提取方法是一种特征选择方法,可以考虑将多侧面方法和主成分分析结合,将二者的优点结合,进一步扩大多侧面方法的应用范围。