统计机器学习的几点实证研究

来源 :四川师范大学 | 被引量 : 1次 | 上传用户:lcj_111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
统计机器学习是一门新兴的交叉学科,是一门研究如何通过历史数据抓取事物的本质特征,以模型或算法为代表性的呈现方式,实现分类、预测、回归拟合等数据分析行为的自然科学。统计机器学习有着广泛的应用,本文的研究关注其中的分类模型在金融、文本识别领域的应用,以及经典分类器支持向量机用降维(变量选择)方法的改进。具体如下:(1)采用logistic回归(Logistic Regression)模型对客户交易指标建立二分类模型,以期为证券公司提前预测出高流失风险的客户。伴随着中国经济的高速发展和经济全球化的不断加深,客户流失问题比争夺客户更需要证券公司的高度关注。本部分从反映客户交易情况的指标出发,采用K-均值聚类获取客户流失状态;接着通过6种逐步回归方法进行变量选择,并建立logistic客户流失预警模型;再对模型的泛化能力进行检验并基于证券公司的业务特点给出分析。研究结果表明:反映客户交易活跃度的指标是证券公司实施客户流失预警的关键,进而为证券公司有针对性地挽留客户提供有效的方法和可行的建议。(2)基于支持向量机(Support Vector Machine,SVM)理论建立分类模型,研究手写英文的识别。本部分建立支持向量机多分类模型,用于鉴别26种英文字符,而不受手癖、字体等印刷风格的影响。作为图像识别领域的一部分,对于手写数据的辨认在移动智能、刑侦、医学、考古学等诸多领域有广泛的应用。本部分使用统计机器学习领域的经典手写字符数据集,基于统计机器学习理论,建立英文字符识别的支持向量机模型。实证结果表明,对“变体”英文字母的识别准确率很高,且非常稳健,没有“过拟合”现象。(3)运用弹性网(Elastic Net,EN)的变量选择方法来优化支持向量机,研究与(2)中相同的手写英文字符数据集建模,以期使算法具备更优良的性质。本部分利用弹性网做变量选择后的指标建立支持向量机多分类模型;为了对比降维的效果,同时建立ridge-svm、lasso-svm、PCA-svm等作为对照;考虑到客观、全面的评估模型性能,不仅采用分类精度、训练时间、指标引入个数等多个评价指标,而且将常用于图像识别的各大分类器神经网络、决策树、随机森林、logistic回归、判别分析、K-均值聚类等尽数对比建模,覆盖经典统计模型和统计机器学习模型、监督模型和无监督模型。结果表明,弹性网支持向量机(Elastic Net-Support Vector Machine,EN-SVM)适用于英文字符识别,以可能牺牲较小的分类精度、延长模型训练时间为代价,实现指标压缩(降维)并“继承”弹性网的优良性质,该模型是处理大样本量、高维、稀疏文本数据的优良选择。
其他文献
项目教学是高职院校实现培养目标的重要途径。框架问题是项目教学的重要环节,在开发框架问题时,应将框架问题的三个层次与培养目标的三个方面紧密结合。通过框架问题驱动教学,引
学校国防教育应设立专职监督机构郗谦一、军训试点阶段在管理机制方面存在的主要问题当前我国学校国防教育组织领导机构的特点是直线或职能型的。从计划、组织、执行、反馈到
创造语言学习环境对外语学习来说至关重要,在有限的教学条件下,如何更好地为学生创造语言环境是外语教学所研究的重要内容。笔者在长期的实践过程中,发现图片这一媒介形式在外语
道家的和谐理念内容丰富,涵盖了很多方面,如人的心境和谐,人际和谐,人与社会和谐,社会政治和谐,以及人与自然和谐等等,同时,道家对实现各方面的和谐提出了全面具体的要求,这
随着网络分析方法的深入,围绕着专利引文网络结构特征的研究出现了大量的研究成果,这些成果都从某种程度上折射出专利引文关系的形成受到了来自属性特征之外关系特征的影响,
【正】 许多古书注解和字典辞书认为,古代汉语中,"去"有"藏"的意义,因而有时以"藏"释"去".释"去"为"藏"始见于晋杜预《春秋经传集解》.《左传·昭公十九年》:"纺焉以度而
猪场猪只感染胸膜肺炎放线杆菌(APP)后根据病情不同可造成程度不等的损失,对某一区域内感染率和流行血清型的调查是进行针对性防控的基础工作。目前国内外系统性进行上述研究的
【正】 六十年代美国经历了一次震撼现存制度的政治危机,它对教育制度的影响,主要表现为价值观念的混乱和教学质最的普遍下降.美国各大学的研究中心和教职人员对此提出了许多
针对目前液压传动课程教学存在的问题和不足,围绕产学研用合作培养模式,从提高学生学习积极性和主动性,充分发挥产学研用合作培养模式中企业和科研单位在人才培养的作用等方面进
山西省沁新煤炭焦股份有限公司位于沁源县西北李元镇韩家沟,是长治市最大的优质主焦煤生产和加工转化基地,是沁源县的龙头支柱企业.