论文部分内容阅读
传统的支持向量机(SVM:Support Vector Machines)算法基于统计学理论和结构风险最小化原则,在最小化经验风险的同时提高算法的泛化能力。全局优化性、推广能力好、非线性核函数的使用等特性使其在解决有限样本、非线性、高维模式识别方面取得了比传统模式识别算法更好的效果。坚实的理论基础和良好的应用前景吸引了一大批学者投入该算法的研究。语音是人机交互最直接的方式,语音相关处理技术的发展使其在语音查询、语音控制、基于语音的模式识别等方面取得了长足的进步。语音有可能成为以后计算机操作系统和一些应用软件的用户默认操作界面。说话人识别(SPR:SpeakerRecognition)、语音内容识别(SCR:Speech rtecognition)、语音情感识别(SER:Speech Emotion Recognition)及算法的稳健性、有效性、实用性是现在研究的热点。本文系统分析了支持向量机算法及其相关改进算法,着力于这些算法在语音处理相关技术中的应用分析;同时对语音的特征空间、应用模型进行了深入地探索。算法的可行性、有效性和实用性是本文分析和强调的重点。
⑴提出分析了基于模糊最小二乘支持向量机(FLSSVM:Fuzzy Least SquaresSupport Vector Machines)的说话人识别算法。最小二乘支持向量机(LSSVM:Least Squares Support Vector Machines)利用等式约束取代传统支持向量机的不等式约束,训练优化时用一系列的线性等式求解代替SVM的二次规划迭代算法,节约了大量的训练时间;模糊算法用于解决多分类问题中存在分类盲区的问题。本算法力求探索更适应于说话人识别算法的语音特征空间;在较高维的特征空间中运用模糊最小二乘支持向量机算法的优点提高说话人识别算法的准确度、训练识别速度,从而达到实用的目的。
⑵提出多类最小二乘孪生面支持向量机(MTLSSVM:Multi-class Twins LeastSquares Support Vector Machines)算法并将其应用于说话人识别、语音情感的识别和函数估计算法(FA:Function Approximation)中。本算法综合运用了最小二乘支持向量机算法中的等式约束原理、孪生面支持向量机(TSVM:Twins SupportVector Machines)算法为每类样本数据点找到反映其分布的超分界面的时候只用非本类样本数据点作为约束条件的机制。这些机制使训练时间大大缩短的同时很容易将算法推广到多分类的问题中。本算法用于说话人识别、语音情感识别和函数估计算法中均取得了实用性的效果。
⑶对比分析了相关向量机(RVM:Relevance Vector Machines)和SVM,以及在说话人识别算法中的应用。RVM具有和SVM相同决策函数形式、是基于概率统计的一种学习机。RVM具有比SVM更稀疏的支持向量表示,同时具有概率预测和不用人为确定参数的优点。RVM在函数拟合及分类应用中的准确度上与SVM不相上下,在测试阶段因其稀疏性比SVM更快:同时具有自动考虑噪声影响的功能,从而具有更好的稳健性能。利用相关向量机的这些特点,将其运用到说话人识别算法中取得了较好的效果。
⑷分析了基于多面最邻近支持向量机(MPSVM:Multisurface ProximalSupport Vector Machine)的语音情感识别算法。MPSVM通过解决某类样本数据点相对于非本类样本数据点的特征值问题而得到每一类样本的超分界面,该分界面尽可能代表本类样本分布的同时尽可能远离非本类样本数据点。该算法不用优化迭代,训练时间相对较快。将相应的核函数运用于该算法,在语音情感识别算法中取得了很好的分类效果。
⑸结合局部保留索引(LPI:Locality Preserving Indexing)和支持向量聚类(SVC:Support Vector Clustering)算法,探索其在文本聚类(DC:DocumentsClustering)中的应用。LPI算法能够发现高维样本数据点分布的局部结构,在降维的同时保留了样本数据点间的类属结构关系,从而能够在低维空间进行分类或聚类操作;SVC算法利用SVM中的非线性核函数进行球形投影,在投影空间优化找到支持向量映射回原空间形成聚类所需的样本数据点边界,通过规定的类内和类间标识方法达到聚类的目的。本文将SVC算法与LPI算法结合并将其运用于高维空间中的文本聚类取得了很好的效果。