论文部分内容阅读
统计模式识别在判别分析领域扮演着重要的角色,也是模式识别的课题之一,作为统计模式识别基础的多元统计分析和鉴别分析在计算机出现之前就已经存在,而作为对样本数据具有降维功能的Fisher判别分析法发展迅速,其理论研究和应用取得了很大进展,如医疗诊断、人脸识别、信用风险评价等领域。随着大数据时代的到来,数据分析更多面对的是高维度、结构非常复杂的数据,传统的Fisher判别分析已难以实现准确的识别。传统的Fisher判别分析法利用Frobenius范数确定判别准则,异常数据对其比较敏感,这就引出了基于L1范数建立Fisher判别准则;又为了解决非线性可分问题以及充分反映样本的多种特征,将多个核函数引入以构造新的判别模型。论文将多核函数和L1范数同时用于Fisher判别建立基于L1范数的多核Fisher判别模型,以研究如何提高判别模型的准确识别率问题。 本研究主要内容包括:①选取将具有旋转不变性的L1范数应用于Fisher判别分析中,以减弱异常数据的敏感性。为了处理线性不可分的情况,并且充分利用样本的多种特征属性,引入了合成核函数,该核函数融合了线性核函数的全局性和高斯核函数的局部特性。②从理论上对L1范数下的多核Fisher判别函数以及相对应的判别准则进行了详细的推导;对模型中的参数和组合系数,提出了“经验选择法”与“实验试凑法”相结合的计算方法;在建立判别函数和判别准则时使用拉格朗日乘子法求解类间散度距离与类内散度距离差的极大值,避免了“小样本问题”下的类内散度矩阵不可逆问题。③选取UCI数据库中IRIS、SEEDS、Ionosphere三类不同类型的数据集对论文研究方法的有效性进行了验证,选用上证100指数成分股和“ST”股的上市公司作为样本,应用论文提出的方法并对上市公司财务状况好坏进行了实证判别。⑤通过与传统的Fisher判别中的误判概率比较,模型使判别能力(或准确识别率)在一定程度上有所提高。与传统的Fisher判别法相比,在样本维数较低时模型的判别能力较弱,在对维数相对较多或维数比较接近样本数目时,模型准确识别率比传统Fisher略有改善,并且多核函数下的判别能力优于单个核函数。如果要大幅改善论文判别方法的识别率,提高计算速度,需要在确定参数的算法上有所改进。