论文部分内容阅读
在实际应用中存在着大量包含符号属性和数值属性的混合数据。如何在大规模混合数据中利用机器学习方法获取有价值的新颖知识,一直是信息学科的一个研究重点。本文围绕着大规模混合数据分类任务的需求,沿着混合数据分类核方法和大规模优化算法展开研究,其主要工作和创新点如下。(1)提出了了一种新的混合数据支持向量机学习算法,提取符号数据之间隐含的空间结构信息。混合数据学习的难点是符号属性的处理,其主要原因是符号属性之间缺乏类似数值属性的空间结构信息。本文提出了一种新的符号属性数值化处理方法。该方法与核方法相结合,根据模型的性能评价指标(如泛化误差)将符号属性映射到实数空间,从而提高模型的分类性能,获取符号属性之间潜在的空间结构信息和序关系信息。根据不同的属性映射策略,分别提出了混合数据线性和非线性支持向量机算法。(2)提出了了一种新的符号数据核函数,并构建了混合数据多核学习算法。针对符号数据的特点,我们提出了一种新的比值高斯核函数和符号属性one-of-N编码的快速计算算法。将混合数据中的符号属性与数值属性分开处理,符号属性根据其不同的编码方法形成不同的核矩阵,数值属性则根据其不同的核函数和超参数形成多核矩阵。实验表明,该方法能有效提高混合数据的分类性能,减少符号数据编码方法对学习性能的影响。(3)为线性支持向量机、非线性支持向量机和多核学习算法提出了了一系列的快速优化算法,以满足大规模数据处理的需求。本文根据KKT条件推导了一种新的支持向量机最优判别条件,并根据该条件提出了随机序贯最小优化算法。该算法不仅能有效提高线性支持向量机的训练速度,满足大规模数据处理的需求;同时无需对线性判别函数中的偏置项做近似或忽略处理,提高模型的分类性能。序贯最小优化(SMO)算法是非线性支持向量机和多核学习中的一个重要优化方法。本文从SMO工作集选择的角度出发,提出了两种新的最优步长工作集选择策略。该策略能有效减少SMO-MKL多核学习和非线性支持向量机优化算法的迭代次数,提高其训练速度。本文提出的学习算法不仅扩展了核方法理论的应用范围,同时为混合数据、异构数据和多模态数据的学习提供了一种新的解决思路。下一步将对异构数据和多模态数据进行深入研究。