论文部分内容阅读
对于大规模数据集的机器学习问题,进行特征选择和空间降维几乎是必不可少的步骤之一。选取有效的变量子集,剔除无效的、重复的、噪声的变量,能够提高对原始数据的解析程度,有助于提高对数据学习的效率。数据的特征选择和空间降维工作可以在一个完整机器学习过程的不同位置进行,如在分类前进行或是在机器学习过程中进行。在分类前进行的特征选择和机器学习的决策函数往往不同,而在机器学习模型中集成特征选择可以保持决策目标的一致性,二者各有优劣。在分类学习前进行特征选择的最大不足是特征选择模型和学习分类模型的标准不统一,变量子集满足了选择算法的最优,但可能无法保证在给定的分类模型中表现最好。而现有的集成特征选择的机器学习模型中,有的会受到样本数量的限制,有的则只能进行变量筛选,无法生成新的特征。本文研究的核心是根据半正定规划模型提出一种新的集成特征选择与分类优化模型的算法并探讨特征选择和空间降维研究思想在城市运行管理中的一些应用,相关工作主要集中在以下6个方面:
1.特征选择和空间降维算法综述;
2.基于半正定规划的核函数选择方法;
3.集成化的特征选择与分类优化模型及其算法;
4.带有特征选择过程的分类优化模型误差分析。
特征选择在城市运行管理中的应用,包括:
5.在供热计量收费模式改革中的应用
6.环境考评指标体系建设中的应用。
特征选择和空间降维的算法虽然在近些年取得了长足的进步,特别是流形学习概念的提出后,对数据分析更加重视空间结构表征。但该领域仍然面临着诸多的挑战:特征选择过程在选取变量组合时仍显得比较乏力,而流形学习方法对数据密度要求较高,在处理缺失数据、高维非结构化数据时效果不佳。本文总结特征选择和空间降维的相关研究工作,探讨每种方法的优缺点,并指明未来可能的研究方向和值得挖掘的潜力。
基于半正定规划的核选择方法,是研究有指导分类学习过程中核函数的选择问题,本文的有指导分类算法基本框架在支持向量机范畴内进行,支持向量机学习算法中一个核心命题足核函数如何选取,以支持向量机应用为主的研究中,核函数选取基本上采用固定的几种形式(高斯、多项式、内积核函数),通过训练样本并进行交叉验证选取相关参数。这种选取方式简单、迅捷,但和数据的真实分布情况脱节。基于数据本身特性制定核矩阵的方法越来越受到重视,该方法归结为求解半正定规划问题,能够充分反映数据本身的特性。本文提出的基于半正定规划的特征选择正是利用半正定规划选择核函数的的原理,考虑将特征选择与核矩阵选择相融合,将原空间向特征空间的映射,变成原子空间向特征子空间的映射,利用半正定规划模型组合特征子空间实现特征选择,由于这一过程伴随在半正定规划支持向量机模型中,因此可以看作是一种集成化的特征选择与分类优化模型,将其称为SDP-SVM特征选择算法。现有集成化的研究方法以在分类模型中加入变量控制罚函数为主,这类方法虽然能够同时进行特征选择和分类优化,但罚函数特征选择在特征数量多于样本数量时无法选择多于样本数量的特征。本文提出的方法可以有效克服上述方法的弊端。
带有特征选择过程的分类优化模型误差分析是对特征选择一分类优化过程的误差来源进行分析,分类过程误差可能来自节选的训练样本以及分类模型。传统的误差分解方法是针对分类优化模型的偏倚一方差分解,分解方式和采用的损失函数有关,将误差分为偏倚部分和方差部分,通过权衡两部分使得总误差最小,因此某些有偏分类模型泛化能力更好。引入特征选择后误差来源又增加了——特征子集选择所引入的误差,此时分析偏倚--方差—选择误差的误差分解方式及权衡方法,对深入理解模型非常必要。对于本文提出的特征选择方法相应地进行偏倚--方差—选择误差的分解,在统一的实证数据下比较SDP-SVM特征选择算法和其它特征选择方法误差方面的不同。
在实际应用方面,本文探索如何将特征选择和空间降维应用至城市运行管理相关问题中,本文选择城市运行管理两个典型的事例——城市供热计量和城市环境评估体系进行特征选择和空间降维应用的实验。在城市供热计量模型中提出了一种新的热费分摊技术模型;在城市环境考评指标体系中根据机器学习(特征选择)与人工学习的联系与区别,建立了完整的、能够随时间推移进行持续考评的架构。对于实际的问题而言,由于其样本数量和结构的特殊性,并不能直接套用相关方法进行分析,而是采用特征选择和空间降维的相关思想辅助供热计量和环境评估的决策工作。待数据积累丰富后逐步应用特征选择相关方法进行更深层次的分析。