【摘 要】
:
高维数据频繁产生于医药、金融、工业等领域,一个研究对象可能对应着几十甚至上百个变量,如何从众多变量中选择出合适数量的变量进行分析,线性惩罚回归方法在高维数据分析中起到了重要的作用。线性惩罚回归是在线性回归的基础上,增加一项含一范数的惩罚函数,可以起到变量选择的效果。本文研究的高维数据来自二手车交易平台,该数据集是以价格为研究对象,伴随着20个以上的变量,将分类型变量进行独热编码后,变量个数将达到上
论文部分内容阅读
高维数据频繁产生于医药、金融、工业等领域,一个研究对象可能对应着几十甚至上百个变量,如何从众多变量中选择出合适数量的变量进行分析,线性惩罚回归方法在高维数据分析中起到了重要的作用。线性惩罚回归是在线性回归的基础上,增加一项含一范数的惩罚函数,可以起到变量选择的效果。本文研究的高维数据来自二手车交易平台,该数据集是以价格为研究对象,伴随着20个以上的变量,将分类型变量进行独热编码后,变量个数将达到上百个。在对原始数据进行了基本的预处理后,本文基于处理后的二手车相关参数数据建立了LASSO回归价格预测模型,经过10折交叉验证后,得到LASSO回归价格预测模型的拟合优度为0.8239,计算得到LASSO回归价格预测模型的均方误差为1.8632。由于数据准备阶段发现每个特征变量都存在少数离群点,为了提升模型变量选择精度,本文提出了改良的稳健自适应LASSO回归价格预测模型,在原有的LASSO回归价格预测模型上,将惩罚项由普通的L1范数改进为基于稳健距离方法加权的类L1范数,稳定距离RD(xj)的大小决定了对应|βj|的权重值,改良后模型的稳健性明显增强。基于处理后的二手车相关参数数据建立改良的稳健自适应LASSO回归价格预测模型,经过10折交叉验证,得到拟合优度为0.8943,改良前后模型拟合效果显著提升,改良的稳健自适应LASSO回归价格预测模型的均方误差为0.8729,改良前后模型的均方误差显著降低,降幅达到53.15%,由变量选择结果可以看到,从196个特征变量中选中43个,消除了其他153个特征变量,二手车价格受到风险等级、行驶里程、引擎大小等因素的影响显著。
其他文献
由于云计算、机器学习等科学技术的蓬勃发展,各类信息的数据量呈爆炸式增长。海量的数据足以支撑各类应用去做信息的推荐功能,但是目前应用的推荐准确度仍有很大的提升空间。音乐经常被当做是一种解压和娱乐的方式,一个功能简单或者推荐度不高的听歌系统很难满足用户千人千面的需求,用户粘性也不会很高。因此开发一个基于良好推荐算法的音乐系统不仅可以满足人们缓解压力的需求,还能够因人而异,准确地预测出用户的喜好并以合适
随着互联网信息技术的飞速发展,网络信息数据呈现出几何级别的爆炸增长态势,由此引发“信息过载”的问题。个性化的推荐系统能很好的解决这一问题。在推荐系统中,推荐算法的选择决定了推荐系统的质量。在工业级别的推荐系统中,推荐算法分为两步,分别是召回层和排序层。召回层高效快速的从数以亿计的原始物品库中选出用户感兴趣的几百个物品,排序层对挑选出的候选物品集进行精准排序以推荐给每个用户。本文主要研究召回层算法和
全面推进中国式现代化是新时代新征程的伟大事业,则“税收现代化服务中国式现代化”必然是当前税收战线的首要任务。在中国特色社会主义持续发展中,税收始终是中国特色社会主义税收,税收现代化始终是中国特色税收现代化。因此讨论税收现代化服务中国式现代化,就是讨论中国特色税收现代化服务中国式现代化,就是讨论两者的辩证关系、时代内涵与实践途径。基于这一判断,本文聚焦四个方面展开讨论:一是在中国特色社会主义新发展中
该研究采用传统分离纯化技术对不同储存期(4~7个月)的宋河中高温大曲中的霉菌进行分离纯化,并通过形态学观察和分子生物学技术对其霉菌进行鉴定,结合其理化指标检测结果确定宋河中高温大曲的最佳储存时间。结果表明,从不同储存期的宋河中高温大曲中共分离得到22株霉菌,其中,储存期为4、5、6个月的宋河中高温大曲分别获得6株、4株、12株霉菌,经鉴定为5个属的14种霉菌,其中,枝孢菌属(Cladosporiu
不平衡数据集的分类问题是实际业务场景中最重要的建模问题之一。传统的机器学习分类算法大多只面向于平衡数据集,在训练过程中仅重视模型对样本总体的分类效果,当其应用于不平衡数据集时,会倾向于将样本判定为占比更大的类别,从而对少数类样本的识别能力下降。而事实上,实际中的数据集大部分是不均衡的,并且少数类样本被错误分类的成本远高于多数类样本。因此,结合当下重点关注的心脏病预测课题,对不平衡数据集的分类问题进
文本聚类是文本挖掘领域的重要组成部分。本文从武汉市民留言数据量大、缺乏对市民诉求类型的归纳总结的实际背景出发,对市民留言进行词向量训练、关键词提取,最后将留言文本聚类,总结出留言中反映的民生问题。首先,本文采集了近年来1 060 200条留言数据作为语料库,选用Word2vec模型在语料库上进行训练,得到词的向量化表示。从词向量的结果来看,语义相近的词,词向量之间的余弦距离更近;同时,词向量缓解了
随着大数据与云计算技术的飞速发展,海量文本数据的获取变为可能,自然语言处理已经成为人工智能领域中最重要的方向之一。现如今的自然语言处理主要是通过大型的深度学习模型来对文本数据进行分析,近些年来,以注意力机制构建的深度模型在文本数据建模上不断刷新记录,成为了自然语言处理模型的主要发展方向。注意力机制相比于传统的循环神经网络结构具有可并行化、计算速度快、模型精度高等一系列优点,但是由于抛弃了循环神网络
近年来互联网发展迅猛,但在发展过程中也出现了泄露隐私等安全问题。针对这一问题,各国出台了法律约束企业行为,因此数据库变成了一座座数据孤岛。本文主要讨论,在法律的约束下,各参与方通过纵向联邦学习,保护数据安全的同时打破数据孤岛的限制,并且提升自身的模型性能。纵向联邦学习的参与方是半诚实的,因此在联合学习过程中会遇到壁垒和攻击,本文主要介绍了三种攻击:病毒式攻击、拜占庭攻击、女巫式攻击。为保障数据的安
本研究以江西省鹰潭地区特香型白酒中高温和高温大曲为研究对象,采用高通量测序技术对真菌多样性进行分析。结果表明,大曲中的真菌属以曲霉属(Aspergillus,18.40%)、干霉菌属(Xeromyces,18.16%)、根霉菌属(Rhizopus,11.33%)和横梗霉属(Lichtheimia,10.01%)等为主。多样性分析显示中高温大曲中真菌的多样性和丰富度均显著高于高温大曲(P<0.05)
期权是一种金融工具。权利金的价格在期权交易和期权风险管理中十分重要,期权定价也是一个被广泛研究的课题。期权定价模型最早由Black和Scholes提出。Black-Scholes(B-S)模型的成立需要满足一系列的假设:如标的资产价格行为服从对数正态分布,股票波动率为常数等。然而这些假设在实际应用中往往并不存在,这就导致了B-S模型的定价和实际价格之间会存在着系统性偏差。而利用深度学习神经网络方法