多核学习算法研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:teamworkhlc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器学习技术被广泛应用于计算机视觉,自然语言处理,生物信息学,医疗图像分析,入侵检测等诸多领域。作为一种最主要的机器学习技术,核方法提供了一个强大的及统一的学习框架。它使得研究者专注于算法设计而无需考虑数据的属性,如字符串,向量,文本,图等。正因为具有此优点,核方法被广泛应用于不同的学习任务中,如分类,回归,聚类,排序等。众所周知,核方法的性能极大地依赖于核及其参数的选择。然而,如何选择核及其参数仍然是一个开放性的问题。因此,对核算法的探索研究有着极其重要的应用价值。本文的工作集中于设计有效的核学习算法以提高算法的性能,其贡献可以概括为如下七个方面:(1)提出了一种自适应的最优邻居核学习算法。通过假设最优核可以表示成参数化的高斯核函数或多个基核的线性组合,该算法能自适应地学习最优核参数,最优邻居核及分类器的结构参数。另外,我们从概率角度解释了该算法以及现有的核方法。根据该概率解释,我们可以很清晰地得到现有核方法之间的区别和联系。大规模的实验验证了该算法的有效性和高效性。(2)提出了一种基于迹–间距的多核学习算法。根据机器学习理论,分类器的泛化性能是最小包含球半径与间距的乘积的下界。本文中,我们不是直接最小化最小包含球半径,而是最小化它的一个近似,即散度矩阵的迹,提出了一种基于迹–间距最小化的多核学习算法。在公共测试集上的实验结果验证了该算法的有效性。(3)提出了一种基于基核半径–间距的多核学习算法。尽管基于迹–间距最小化的多核学习算法能取得较好的分类性能,它的目标函数不一定是泛化误差的上界。为了克服这个理论上的缺陷,我们首先证明了基核半径的线性组合是最小包含球半径的一个上界,并提出用基核半径的线性组合来替换最小包含球半径,得到一种基于基核半径–间距的多核学习算法。多个公共数据集和医学数据集上的分类结果验证了该算法的有效性。(4)提出了一种缺失多核学习算法。当某些样本的一些通道信息缺失时,如何利用这些不完整的数据进行多核学习是一个重要和常见的问题。为了解决这个问题,我们首先在每个样本相关的多核空间中定义基于样本的间距。然后最大化所有样本间距的最小值以期望达到更好的泛化性能。多个公共测试数据集上的实验结果验证了我们算法的有效性。而且,实验结果表明,缺失比率越高,我们算法的优越性越明显。(5)提出了一种样本自适应多核学习算法。当某些样本的一些通道信息含有噪声或者被损坏时,直接利用这些数据进行多核学习势必会影响最后的学习性能。为了克服这个问题,我们提出了一种隐多核学习算法。该算法在多核学习过程中能自动关闭那些含有噪声或者被损坏的通道,以消除它们对多核学习的影响,导致更好的学习性能。多个公共测试集的实验结果验证了该算法的有效性。(6)提出了一种多核极限机算法。我们提出了一种多核极限机的学习算法。该算法使得现有的极限机算法能自动地学习核参数。更重要的是,它也使得极限机算法能够有效地集成来自多通道的数据源信息。多个公共测试集的实验结果验证了该算法的有效性和高效性。(7)提出了一种全局和局部相似度保存的特征选择算法。我们提出了一种基于全局和局部相似度保存的特征选择框架,该框架统一了有监督,半监督和无监督特征选择。基于该框架,我们系统地研究了全局相似度保存和局部相似度保存分别对有监督,半监督无监督特征选择的影响。实验结果同时也表明了我们提出的框架的有效性。
其他文献
急性阑尾炎是最常见的外科急腹症之一,根据其特征性的转移性右下腹疼痛、麦氏点固定压痛及全身感染征象,诊断一般并不困难,但一些不典型的急腹症常表现为类似阑尾炎的症状及体征
以某风冷冷冻柜为研究对象,分别从毛细管长度、制冷剂充注量、频率变化三个方面试验分析毛细管对制冷系统性能的影响。试验得出最佳毛细管长度为650mm;最佳充注量为1060g;系统高
目的分析儿童意外伤害危重症病例资料,提出可行性预防措施。方法回顾性分析江西省儿童医院重症医学科儿科重症监护病房(PICU)2015年5月1日至2018年4月30日收治的儿童意外伤害
胰岛素常见的不良反应是低血糖、胰岛素水肿和体重增加。引起过敏反应的非常少见,特别是在使用人胰岛素治疗1年以后才出现,现将我院2004年12月发现的病例报道如下。
目的:探讨超声(包括CDFI及实时三维超声)与MRI在胎儿先天性缺陷诊断中的优势与缺陷及相互补充作用。方法:对我院例行超声检查中发现胎儿先天性缺陷或可疑先天性缺陷的26例孕妇进
目的探讨急性脑梗死患者血清神经元特异性烯醇化酶(NSE)变化的临床意义。方法采用酶联免疫吸附法测定22例急性脑梗死患者(分为腔隙性脑梗死组、小面积脑梗死组及大面积脑梗死组)
随着信息化的逐步深入,大规模的数据处理已经成为很多应用领域的迫切需求。低成本、高性能、使用方便的数据处理技术是与之对应的发展热点。集群环境中的MapReduce大规模数据
系统中的不确定性是指描述被控对象及其所处环境的数学模型是不完全确定的,其中可能包含某些未知因素或随机因素。客观地说,任何一个实际系统都具有不同程度的不确定性。它们