特征选择算法研究及在城市运行管理辅助决策中的应用

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:water11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对于大规模数据集的机器学习问题,进行特征选择和空间降维几乎是必不可少的步骤之一。选取有效的变量子集,剔除无效的、重复的、噪声的变量,能够提高对原始数据的解析程度,有助于提高对数据学习的效率。数据的特征选择和空间降维工作可以在一个完整机器学习过程的不同位置进行,如在分类前进行或是在机器学习过程中进行。在分类前进行的特征选择和机器学习的决策函数往往不同,而在机器学习模型中集成特征选择可以保持决策目标的一致性,二者各有优劣。在分类学习前进行特征选择的最大不足是特征选择模型和学习分类模型的标准不统一,变量子集满足了选择算法的最优,但可能无法保证在给定的分类模型中表现最好。而现有的集成特征选择的机器学习模型中,有的会受到样本数量的限制,有的则只能进行变量筛选,无法生成新的特征。本文研究的核心是根据半正定规划模型提出一种新的集成特征选择与分类优化模型的算法并探讨特征选择和空间降维研究思想在城市运行管理中的一些应用,相关工作主要集中在以下6个方面:   1.特征选择和空间降维算法综述;   2.基于半正定规划的核函数选择方法;   3.集成化的特征选择与分类优化模型及其算法;   4.带有特征选择过程的分类优化模型误差分析。   特征选择在城市运行管理中的应用,包括:   5.在供热计量收费模式改革中的应用   6.环境考评指标体系建设中的应用。   特征选择和空间降维的算法虽然在近些年取得了长足的进步,特别是流形学习概念的提出后,对数据分析更加重视空间结构表征。但该领域仍然面临着诸多的挑战:特征选择过程在选取变量组合时仍显得比较乏力,而流形学习方法对数据密度要求较高,在处理缺失数据、高维非结构化数据时效果不佳。本文总结特征选择和空间降维的相关研究工作,探讨每种方法的优缺点,并指明未来可能的研究方向和值得挖掘的潜力。   基于半正定规划的核选择方法,是研究有指导分类学习过程中核函数的选择问题,本文的有指导分类算法基本框架在支持向量机范畴内进行,支持向量机学习算法中一个核心命题足核函数如何选取,以支持向量机应用为主的研究中,核函数选取基本上采用固定的几种形式(高斯、多项式、内积核函数),通过训练样本并进行交叉验证选取相关参数。这种选取方式简单、迅捷,但和数据的真实分布情况脱节。基于数据本身特性制定核矩阵的方法越来越受到重视,该方法归结为求解半正定规划问题,能够充分反映数据本身的特性。本文提出的基于半正定规划的特征选择正是利用半正定规划选择核函数的的原理,考虑将特征选择与核矩阵选择相融合,将原空间向特征空间的映射,变成原子空间向特征子空间的映射,利用半正定规划模型组合特征子空间实现特征选择,由于这一过程伴随在半正定规划支持向量机模型中,因此可以看作是一种集成化的特征选择与分类优化模型,将其称为SDP-SVM特征选择算法。现有集成化的研究方法以在分类模型中加入变量控制罚函数为主,这类方法虽然能够同时进行特征选择和分类优化,但罚函数特征选择在特征数量多于样本数量时无法选择多于样本数量的特征。本文提出的方法可以有效克服上述方法的弊端。   带有特征选择过程的分类优化模型误差分析是对特征选择一分类优化过程的误差来源进行分析,分类过程误差可能来自节选的训练样本以及分类模型。传统的误差分解方法是针对分类优化模型的偏倚一方差分解,分解方式和采用的损失函数有关,将误差分为偏倚部分和方差部分,通过权衡两部分使得总误差最小,因此某些有偏分类模型泛化能力更好。引入特征选择后误差来源又增加了——特征子集选择所引入的误差,此时分析偏倚--方差—选择误差的误差分解方式及权衡方法,对深入理解模型非常必要。对于本文提出的特征选择方法相应地进行偏倚--方差—选择误差的分解,在统一的实证数据下比较SDP-SVM特征选择算法和其它特征选择方法误差方面的不同。   在实际应用方面,本文探索如何将特征选择和空间降维应用至城市运行管理相关问题中,本文选择城市运行管理两个典型的事例——城市供热计量和城市环境评估体系进行特征选择和空间降维应用的实验。在城市供热计量模型中提出了一种新的热费分摊技术模型;在城市环境考评指标体系中根据机器学习(特征选择)与人工学习的联系与区别,建立了完整的、能够随时间推移进行持续考评的架构。对于实际的问题而言,由于其样本数量和结构的特殊性,并不能直接套用相关方法进行分析,而是采用特征选择和空间降维的相关思想辅助供热计量和环境评估的决策工作。待数据积累丰富后逐步应用特征选择相关方法进行更深层次的分析。
其他文献
为探寻帮助自闭症儿童的有效途径,本个案选取本园某位自闭症幼儿作为个案,初步呈现了本园教师以日常活动、游戏活动和学习活动融合作为在对他的教育干预的主要过程和方法,以
在初中教育阶段,孩子与老师之间的代沟最为明显,因为这一阶段学生的叛逆心理十分强烈,师生之间稍有矛盾便有可能引发更大的教学事故,因此在初中教育阶段要有其注意教育的方式
阳春三月,亚太地区规模最大的广播影视技术设备展览盛会--2009中国国际广播电视信息网络展览会将于2009年3月21日在北京中国国际展览中心拉开帷幕.本届CCBN,捷成世纪将全力展
本研究创新的提出了区间时间序列模型方法论。传统时间序列分析以‘点样本’为基础进行统计推断。但是在给定的时间区间内,收集的‘点’样本只能够反映时间序列的‘水平’或者
聋儿的发音器官完整无缺,但因听觉障碍,及受生理、心理和生活环境等方面的影响,他们不善于协调的使用自己的发音器官.我们应从诱导发音、发准音、区分发音及正音方面针对性的
飞机排班问题是航空公司日常生产经营中的一项重要活动,其解决的好坏直接影响到航空公司的正常运作和整体效益。飞机联线是飞机排班的重要环节,合理、科学地安排飞机联线,有利于
幼儿教师职业看似轻松简单,实则除了教育教学的专业考验,更有面对家长、幼儿、领导、同事等复杂人际关系的考验.使用“考验”一词,正是因为有为数不少的教师在走上幼师岗位之
期刊
随着社会经济的不断发展,人类与自然的相互作用日趋明显,全球范围内的特大灾害事件时有发生,给人民的生命财产造成了巨大的损失,各国政府都认识到建立综合性灾害预警体系的重要性
“幼小衔接”问题涉及到家庭、幼儿园、小学等各个方面,做好幼小衔接工作,需要调动各方面因素积极参与.从西宁城区幼升小报名开始,为了“拯救”这些为孩子操碎了心的家长们,
期刊
在幼儿园的教育教学过程中我们发现:很多孩子在园没有主动喝水的意识,需要老师提醒后才会去喝;有的孩子不喜欢喝白开水,故意不在园喝水,靠午餐喝汤、喝牛奶来维持;有的孩子不
期刊