维数约简中的数据性质研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:nullg08
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
维数约简是机器学习领域中一个重要的研究方向。近年来,高维海量不可控数据的现状,维数约简算法又一次成为人们关注的焦点。   高维数据使我们不得不面对维数灾难(Curses of Dimensionality)问题,维数的不断膨胀给高维数据中的模式识别与数据分析带来极大的挑战,但与此同时,维数的增长又带来了“维数福音”(Blessings of Dimensionality),高维数据中蕴藏着的丰富信息中可产生解决问题的新的可能性。如何将高维数据表示在低维空间中,并由此发现其内在结构是高维信息处理研究的关键问题之一。   传统的机器学习算法有两种不同的建模理念:整体学习与局部学习。整体学习体现数据的整体性质,建立统一的模型;而局部学习通过数据的局部特性来归纳模型。我们根据局部学习的不同特点,将局部学习算法分为三种类型。   在统计推断中稳健性是指实际问题的数据来源与我们的模犁假定有偏离时,所采用的算法的结果受到的扰动很小,并且保持算法的预测性能。将统计稳健性的研究方法引入维数约简算法中,分析得到邻域局部加权估计这种局部学习能够在大样本的情形下收敛到Bayes最优估计,同时收敛条件可以说明邻域局部加权估计是稳健估计。并在模拟数据和真实数据库上进行试验,结果表明在某些离群点影响模型的情况下,仍然保持监督学习预测的泛化性能。   Boosting算法试图用弱学习器的线性组合逼近复杂的自然模型,以其优秀的可解释性和预测能力,得到计算机界的高度关注。但只是将Boosting看作是一种特定损失下的优化问题,我们提出从统计理念看待Boosting方法:在统计学框架下,Boosting算法仅仅是重采样方法的一个特例。目前机器学习算法只重视算法性能忽略数据性质的现状,把预测准确性作为衡量的唯一目标。我们希望改变这种现状,在注重统计解释性的同时,提高算法预测性。   本论文的主要成果是:   1.分析了机器学习两种不同理念整体学习和局部学习,将局部学习算法划分为邻域局部加权学习算法,模型局部算法和局部流形算法三类,并对其主要算法进行了较为详细的阐述。   2.探讨了统计稳健性的概念和分类,并提出了机器学习中的算法稳健性,分析了不同噪音方式对数据的影响,并分析了一种特殊的局部学习算法-邻域局部加权算法的稳健性。   3.介绍了Boosting算法的发展过程,对重采样方法的发展历史进行了较为详细的综述;提出了机器学习算法的四个步骤:样本采集、采样策略、算法类型、集群方法,分析了Boosting方法的统计学性质-Boosting算法仅仅是重采样方法一个特例。
其他文献
网络作为信息传播的一种有效平台在过去的十几年得以高速的发展,其应用已渗透到各行各业,这种趋势在未来也不会改变。因为控制系统也有信息传播的问题,不可避免的,通讯网络技术被
三维重建,即从二维图像恢复三维物体可见表而的几何结构的过程,一直是计算机视觉的重要研究内容。近年来,随着三维重建在数字地球、数字考古、数字娱乐等领域应用的不断发展,物体
学位
图像的超分辨率重建过程通常涉及低分辨率图像序列中的运动估计、去模糊、降噪以及图像插值,是一个典型的病态离散逆问题。本论文研究由低质量人脸图像重建出一幅更高质量人脸
学位
石油化工行业是高耗能产业,而乙烯工业是石油化学工业的龙头与核心。乙烯装置生产的三烯(乙烯、丙烯、丁二烯)和三苯(苯、甲苯、二甲苯)是石油化学工业的基础原料。乙烯产量的
学位
导弹作为现代高技术战争的标志性精确制导武器,得到大量而广泛的运用。长期以来,提高导弹制导控制精度一直是防空导弹研究人员所追求的目标。寻的制导式导弹在整个战术导弹领域
近年来,随着经济和社会的快速发展,各类高层和超高层建筑不断涌现,塔式起重机作为现代化建筑施工的必备设备,由于具有塔身高、起吊重量大、覆盖范围广和工作效率高等优点,在装卸和建筑等领域起着极其重要的作用,未来的发展趋势必须是塔身不断升高,起重量越来越重,覆盖范围更加广泛,但是塔式起重机的安全问题也日益严峻,我国每年都会发生多起塔机安全事故,为了避免危险事故的发生,保护国家和人民的生命财产安全,本文以传
电力电子技术的快速发展,特别是大容量全控型电子器件的成功研制,促进了柔性直流输电技术在世界范围内的发展应用。目前,基于电压源型换流器(voltage source converter,VSC)的多端柔性直流系统(multi-terminal high voltage direct current(MT-HVDC)system)在经济性、灵活性和可控性等方面具有技术优势,但控制策略和控制措施也就相对
分立器件是体现国家基础科技实力的重要产业。随着电子等相关行业的高速发展和广泛应用,分立器件产业的重要性也越发突出。而在整个产业链中,测试是贯穿整个产业的一部分,测
随着我国城市化进程的高速发展,交通管理成为制约城市发展的重要因素。智能交通系统(ITS)被公认为是解决道路交通问题最有力的手段之一,而动态交通信息是ITS实施的基础。本文围绕
生物识别技术发展迅速,各种算法层出不穷。生物识别产品也越来越多的被用于事关国家和公共安全的重要领域。随着其产品化进程的加速,鉴别和选择准确、稳定的识别算法的要求日益
学位