论文部分内容阅读
统计机器学习理论是20世纪90年代逐渐发展成熟的一门不同于传统统计学的理论,它主要是针对有限样本情况下研究统计学习规律的理论,是传统统计学针对实际问题的重要发展和完善。它的建立是统计推断领域内的一个里程碑,使得统计机器学习成为了一门严谨理论基础的科学,也为机器学习算法的设计提供了坚实的理论基础和规范。支持向量机是建立在统计学习理论的基础上的第一个学习算法,目前主要应用于求解分类问题、回归问题和0ne-Class问题。支持向量机最终可以归结为求解凸二次优化问题,从最优化理论的研究层次来看,无论是二次凸优化问题解的存在性理论还是求解算法,都是已经被研究和解决的比较彻底。在理论研究中,重要的数学定理有Karush-Kuhn—Tucker(KKT)条件和Lagrange鞍点定理。在众多的应用领域,如手写邮政编码的识别和生物特征识别,支持向量机算法分类的准确性得到了很好的验证。
然而在实际应用中,在训练支持向量机的时候还是会遇到两个比较难以处理的问题:大规模数据训练问题和模型参数选取问题。在大规模数据训练方面,目前有两种主流算法:几何算法和分解算法,在实际应用中,以分解算法为主。虽然成熟的支持向量机求解软件包已经对于具体的支持向量机求解算法有了深入的研究,并且在分解算法中提出了样本集收缩和核矩阵缓存两大必不可少的策略,但是样本集收缩和核矩阵缓存这两大策略明显没有深刻的利用支持向量机这一问题的特殊性。在模型参数选取方面,常常遇到这样一个问题:由于很多性能优越的算法最终可以转化为求解一个等价的优化问题(如支持向量机、神经网络),但是这些优化问题中却存在了一些需要预先给定的超越参数(如支持向量机中的惩罚系数,神经网络中的隐层数与各隐层节点数),其最优性能是在某一个特定的超越参数下面才能训练得到,然而这个最优性能所对应的超越参数却是不能够很容易的通过先验知识所获得。通用的方法就是使用交叉验证和统计评价指标的方法来选取较优的超越参数,这种方法往往就是预先使用一组备选参数,重复的求解同一个优化问题,显然这种做法相当的浪费资源,还会出现如果最优的参数并不在备选参数中,这种方法相当于是劳而无获。目前也存在了一些比较简单的方法来获取最优的超越参数,比如LIBSV M算法包就使用了网格搜索的策略来重复求解优化问题直至得到最优的超越参数,但是这种网格搜索的策略会遇到落入局部最优的陷阱。因此对于大规模数据训练和参数选取这两方面的理论研究有着非常重要的研究价值。
与此同时,互联网技术在中国经历了十数年的飞速发展,已经渗入了社会生产的各行各业,成为人们日常生活中不可或缺的东西。尤其是近几年来,中国广播电视网络、通信网络和互联网飞速发展,信息基础设施不断完善,用户基数急剧增加,内容产业在近几年取得了巨大的发展。在海量的多媒体网络数据中,音频数据无论在数量还是包含的信息内容上,都占有极其重要的分量,研究发展基于内容的音频内容检索对于经济、社会和国家安全具有极其重要的应用价值。因此对于使用优化算法具体应用到实际的语音文档检索领域中也是非常有应用价值的。
本论文从支持向量机求解算法基础出发,着重分析了目前主流的分解算法和几何算法,随后就对分解算法中的核矩阵缓存技术提出了改进;然后就参数选取问题进行了深入分析,结合目前的解路径算法思想,提出了0ne-Class支持向量机解路径算法;最终将解路径支持向量机求解算法具体的放入中文语音文档检索领域进行实际应用。总体来说,在本文中,主要的工作和贡献有:
1.总结目前的支持向量机求解算法,提出了更加高效的核矩阵缓存技术,提高了目前常用支持向量机求解软件包的求解效率。
2.根据已有的解路径算法思想,提出了针对0ne-Class支持向量机的解路径算法。
3.使用解路径算法求解排序支持向量机问题,实际应用到中文语音文档检索,为中文语音文档检索做出前期铺垫性工作。
总的说来,本文在支持向量机求解算法优化及其在语音文档检索中的应用等方面做了一些有益的探索。整篇文章的工作既需要在理论方面深入研究而取得成果,也需要在实际应用中培养得到良好的工程经验。