论文部分内容阅读
文本倾向性分类对诸如舆情分析、民意调查等应用有重要意义,支持向量机在文本倾向性分类算法中应用广泛。核函数是支持向量机的核心,传统的高斯核函数存在着测试点在低维特征空间比较密集,但是映射到高维空间后却相当稀疏的缺点,造成分类器泛化推广能力不强。同时,传统高斯核函数调节参数过少,泛化推广能力的微调效果不明显。此外,支持向量机的学习泛化推广能力也取决于核函数的类型。传统高斯核函数属于局部性核函数,学习能力强但泛化推广能力弱;属于全局性核函数的多项式核函数,学习能力弱但泛化推广能力强。目前,常将传统高斯核函数与多项式核函数组合使用,但这种方法较为依赖数据集本身的特征,容易出现数据偏斜现象。在文本倾向性分类算法中,分类器参数的选择也是影响分类效果的重要因素。目前常用的对文本倾向性分类器参数进行优化的算法有交叉验证法、网格搜索算法,遗传算法等,它们分别存在着最优划分问题,经验选取问题,计算复杂、速度较慢、容易陷入局部最优化等问题。针对上述问题,本文工作如下:●对传统高斯核函数进行了改进,改进的高斯核函数既能在测试点附近有较快的衰减,同时还能够在远处有一定的衰减。解决了文本倾向性分类的数据集在低维特征空间比较密集,映射到高维空●问后稀疏的缺点,提高了支持向量机的泛化推广能力。实验表明,基于改进高斯核函数的支持向量机,相对于基于传统高斯核函数支持向量机,在宏平均准确率、宏平均召回率、微平均准确率、微平均召回率上,分别有了1.76%、1.19%、0.72%、2.17%的提高。●将改进的高斯核函数、sigmoid核函数、多项式核函数进行了加权组合构造了新的核函数。该核函数在同一个测试点附近的不同区域,有着多个波峰和波谷,而且波峰和波谷的幅度狭窄,在远离测试点区域有着较为缓慢的衰减。这就提高了核函数对数据集的适应性,同时学习能力、泛化推广能力也获得了提高。实验表明,基于改进的加权组合核函数支持向量机,比传统组合核函数支持向量机,在宏平均准确率、宏平均召回率、微平均准确率、微平均召回率上,分别有了2.30%、1.41%、2.01%、2.54%的提高。●使用了粒子群算法对基于改进高斯核函数的多核支持向量机进行了优化,从而能够自动求出支持向量机的参数,避免了人工调试参数的盲目性,节省了分类的时间,提高了分类的准确性。实验表明,相对于人工设定参数法、交叉验证法、网格搜索算法、遗传算法,在F1值上,分别有了8.95%、1.96%、2.56%、0.57%的提高。●将改进的支持向量机应用在文本倾向性分类中,并且与相关文献中采用的文本倾向性分类算法进行了实验对比。实验结果数据表明,采用本文提出的改进支持向量机的文本倾向性分类,相对于文献中采用的文本倾向性分类,在F1值上分别有了9.73%、8.81%、●10.89%、5.01%、2.92%、7.7296、5.67%的提高。实验表明,本文提出的基于粒子群参数优化和改进高斯核函数的多核支持向量机的文本倾向性分类算法在准确率、召回率、F1值,宏平均准确率及召回率、微平均准确率及召回率等方面均有不同程度的提高,有较好的应用价值。