论文部分内容阅读
统计机器学习是一门新兴的交叉学科,是一门研究如何通过历史数据抓取事物的本质特征,以模型或算法为代表性的呈现方式,实现分类、预测、回归拟合等数据分析行为的自然科学。统计机器学习有着广泛的应用,本文的研究关注其中的分类模型在金融、文本识别领域的应用,以及经典分类器支持向量机用降维(变量选择)方法的改进。具体如下:(1)采用logistic回归(Logistic Regression)模型对客户交易指标建立二分类模型,以期为证券公司提前预测出高流失风险的客户。伴随着中国经济的高速发展和经济全球化的不断加深,客户流失问题比争夺客户更需要证券公司的高度关注。本部分从反映客户交易情况的指标出发,采用K-均值聚类获取客户流失状态;接着通过6种逐步回归方法进行变量选择,并建立logistic客户流失预警模型;再对模型的泛化能力进行检验并基于证券公司的业务特点给出分析。研究结果表明:反映客户交易活跃度的指标是证券公司实施客户流失预警的关键,进而为证券公司有针对性地挽留客户提供有效的方法和可行的建议。(2)基于支持向量机(Support Vector Machine,SVM)理论建立分类模型,研究手写英文的识别。本部分建立支持向量机多分类模型,用于鉴别26种英文字符,而不受手癖、字体等印刷风格的影响。作为图像识别领域的一部分,对于手写数据的辨认在移动智能、刑侦、医学、考古学等诸多领域有广泛的应用。本部分使用统计机器学习领域的经典手写字符数据集,基于统计机器学习理论,建立英文字符识别的支持向量机模型。实证结果表明,对“变体”英文字母的识别准确率很高,且非常稳健,没有“过拟合”现象。(3)运用弹性网(Elastic Net,EN)的变量选择方法来优化支持向量机,研究与(2)中相同的手写英文字符数据集建模,以期使算法具备更优良的性质。本部分利用弹性网做变量选择后的指标建立支持向量机多分类模型;为了对比降维的效果,同时建立ridge-svm、lasso-svm、PCA-svm等作为对照;考虑到客观、全面的评估模型性能,不仅采用分类精度、训练时间、指标引入个数等多个评价指标,而且将常用于图像识别的各大分类器神经网络、决策树、随机森林、logistic回归、判别分析、K-均值聚类等尽数对比建模,覆盖经典统计模型和统计机器学习模型、监督模型和无监督模型。结果表明,弹性网支持向量机(Elastic Net-Support Vector Machine,EN-SVM)适用于英文字符识别,以可能牺牲较小的分类精度、延长模型训练时间为代价,实现指标压缩(降维)并“继承”弹性网的优良性质,该模型是处理大样本量、高维、稀疏文本数据的优良选择。