基于复合MCP的Factorization Machine算法及其在稀疏数据的应用

来源 :上海财经大学 | 被引量 : 0次 | 上传用户:love916579208
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现如今,随着大数据的蓬勃发展,越来越庞大和复杂的数据成为人们不得不面对的问题,其中一个显著的问题就是数据的稀疏性。例如在推荐系统领域,数据主要包括用户和商品(包括其他物品,如视频、音乐、网页等等),它们的数目动辄数以百万千万计,而且两个用户之间选择的重叠往往非常少,若将一个用户选择一个商品记为1,没有选择则记为0,那么最终产生的数据集将是非常庞大而又稀疏的。还有在一些传统统计分析领域,当数据中的分类变量和分类的类别很多的时候,比如人们的职业、居住地区、兴趣爱好等等,为了充分挖掘特征所包含的信息,我们通常要使用one-hot编码来处理大量的分类变量,而这也会导致非常稀疏的数据的产生,此时若直接使用传统的统计学方法进行学习(如逻辑回归(LR)、支持向量机(SVM)等等),可能会效果不佳,又或者需要进行大量的特征工程,由人工生成衍生特征来进行模型的训练,这样既耗时又可能无法充分挖掘特征之间的组合信息。随着机器学习和深度学习的发展以及计算能力的提升,许多优秀的算法被提出并用来解决各式各样的数据场景。Factorization Machine(FM)算法即因子分解机便是一个被提出的主要用于解决大规模数据稀疏场景的算法,它本质上是一种对一阶特征进行交叉组合的二阶特征多项式模型。它通过对每个特征学习一个隐向量,然后对两两特征的隐向量相乘得到二阶特征组合项,从而能直接从中学到隐藏的变量间的关系(所有的两两变量之间的关系),从而相比传统的逻辑回归(LR)和支持向量机(SVM)等模型,它对于稀疏数据具有更强的学习和预估能力,因此被广泛的用于广告等点击率预测(CTR)、推荐系统等多个领域。但加入二阶特征组合后产生的问题就是维度爆增,FM模型本身并未考虑许多特征本身是冗余的,也无法直接对冗余的特征进行选择。因此可以考虑借鉴传统模型中的通过添加惩罚项的方式(如L1正则项等)将无用的变量压缩为0,起到变量选择的目的。经典的变量选择方法主要可以分为单变量选择法(如Lasso,SCAD,MCP等)、组变量选择法(如Group Lasso,Group SCAD,Group MCP等)和双层变量选择法(如Sparse Group Lasso和Composite MCP等)。目前应用在FM算法上的还主要是传统的L1和L2正则项。但是Lasso对每个变量施加同样的惩罚,只能实现单变量的选择而不能进行群组变量的选择,同时Lasso的估计也是有偏的,会导致模型的精度降低。然而考虑到FM的参数系数却具有明显的分组特性,对于同一个特征,它的一阶项的系数和它的隐向量系数应该被视作同一组而不应该全部割裂开来来看待,如果这个特征属于噪音,那么它的一阶项系数和隐向量系数应该都被压缩至0从而移除模型之外,因此可以考虑到组变量选择法。但是当某一特征不属于噪音并不代表它的一阶项和隐向量系数都为非零(譬如一个特征本身与其他特征就没有交互效应那么它的隐向量系数也应该为0),尤其在数据规模比较庞大时,为了充分挖掘数据的特征往往一开始将因子分解维度k(即隐向量的维度)设置的很大,我们最好对隐向量的系数也做一个参数选择来防止过拟合的产生。因此本文在之前研究的基础上,选择了在bi-level selection中理论效果优于Sparse Group Lasso的双层变量选择方法,即Composite MCP惩罚项与FM算法结合起来,提出了CMCP-FM复合方法,它能对FM的一阶项和隐向量的系数同时进行组间和组内压缩,组间压缩能起到变量选择的作用而组内压缩又能起到优化参数结构提高参数稀疏度的作用,同时又因为CMCP正则项相对于Lasso系列正则项具有渐近无偏的优点,系数的估计更为精确。本文将CMCP正则项与FM算法结合起来,同时将FM视为一种特殊结构的神经网络,借鉴神经网络剪枝的思想,提出了CMCP-FM算法。新的算法过程为:基于CMCP正则项的预训练过程来完成参数的压缩、使用阈值剪枝过程来移除不重要的参数、重训练的过程训练得到最优的参数结构。本文进行了数据的模拟验证,在模拟的稀疏数据集上,CMCP-FM方法的预测和变量选择方面对比另外几个模型表现的都更好。同时还在两个实际稀疏数据集上进行了实验,CMCP-FM方法在特征意义明晰的数据集上可以准确的选出有意义的变量,提高了参数的稀疏度,而且预测效果相比对比方法更为精确,而在特征含义不明晰的推荐系统数据集上,在提高模型的稀疏度和预测精度两方面CMCP-FM也表现的更好。
其他文献
近几年来,中国金融市场飞速发展,中国债券市场已经成长为世界第三大债券市场。随着市场的发展,中国债券市场品种逐步完善,债券市场结构逐步成熟,债券市场形成了财政部、证监会、人民银行和发改委为主的多头监管的监管体系,以商业银行为核心的债券市场也日渐成熟。金融机构对于债券的发行需求也不亚于投资需求,随着金融机构的扩张,对于专项负债和长期负债都有着大量的需求,稳定的负债来源可以更好的帮助金融机构调整监管指标
学位
随着我国金融市场快速发展,债券融资逐渐成为我国公司最重要融资手段,具有融资规模大、融资成本低、偿还期限长等优点,尤其自2008年以来,债券的融资规模增长迅猛,债券融资已经超出了股票融资规模,对支撑我国实体经济发展起着重要作用,我国政府对债券市场日益重视,相关法律日益健全,监管部门对债券发行的管控日益严格。但我国债券市场仍存在许多不足之处,在2014年以前我国债券市场普遍存在刚性兑付现象,政府等机构
学位
数学是一门抽象的学科,对于学生来说,他们的年龄尚小、生活经验、学习经验并不是非常丰富,想要学习好数学这门学科,需要付出更多的时间和精力。不仅如此,小学数学教师也需要花费更多的心思。按照当前新课改和素质教育所提出的要求,教师需要对数学课堂教学效率的提升加强关注与重视,结合学生的成长特点和心理特点,将游戏化教学模式加入自己的教学过程当中去,从而吸引学生对数学知识的关注。因此,文章主要对小学数学游戏教学
期刊
通用电气CEO杰克·韦尔奇曾说过,对于企业经营者来说,最有效的管理手段就是绩效管理(Bucifal,S.2009)。随着全球化竞争加剧,改革开放的时代红利正在逐步减退,对于企业来说,绩效管理是强化提高企业战略执行的管理方法,它将企业战略经营目标与个人目标结合,通过目标层层分解,将企业管理压力自上而下的传递,通过激励的方式,提高员工的业绩水平,从而提高整个组织的绩效,达成企业经营战略目标,让企业在激
学位
近年来,随着中国资本市场的迅速发展,量化投资在中国的应用越来越广泛,受到广大投资者的关注。大量的量化投资策略也应运而生,有许多交易策略为投资者带来了丰厚的回报。反转效应一直是现代金融研究的热点问题,反转策略也是量化投资中常用的选股方法。但是反转策略的收益波动比较大,收益非常不稳定,因此本文探究改进动量因子有重要的实践意义。动量策略是指买入过去一段时间高收益的股票,卖出过去一段时间低收益的股票,可以
学位
一直以来,投资者对于波动率的管理就是投资策略的重点关注方向,良好的波动率管理使得投资者能够抵抗市场的异常波动,坚定地执行投资策略。随着12月23日股指期权的上市,期权价格对于标的资产波动率的依赖使得波动率问题越来越收到市场的关注。波动率衍生品就是可以直接有效管理波动率头寸的金融产品,本文研究的就是在场外市场有广泛交易的方差互换产品,标的资产为标普500。通过对方差互换的实证研究,比较了Heston
学位
随着智能电网系统的普及,以及电能存储的高成本,准确预测指定区域的电力负荷对电网管理和供电决策是非常重要的。因此,学者尝试了不同的方法,希望提高电力负荷预测的准确性。然而,电力负荷条件均值的预测会受到各个方面的影响,有着诸多不确定性,例如天气条件、日历效应、经济指标等因素,随着信息传播的加快,一些新闻、政策也会在一定程度上影响实时电力负荷。在这样的情况下,以条件均值的预测结果作为参考,会带来供电负荷
学位
现如今,网络售票已经成为了我国票务业的主要出售渠道:2019年春运火车票网络售票日均超千万张,其中12306网络售票占比83.9%;电影票在线售票率超过85%,热门演出票在线售票率更是接近100%。据中国互联网信息中心数据,截至2019年6月,我国网络购物用户规模已达6.39亿,网络购物已成为中国人消费的主要途径之一,也是国民经济的重要来源之一。但网络购物在带来便捷的同时,也出现了一些问题。对于通
学位
市场竞争随着近年来国际贸易的深入而日趋白日化,行业之间的边界越来越模糊,市场上的竞争也因为迭代速度的加快而变得愈来愈激烈。如何在市场中获取并维持企业的持续竞争优势是每个企业都在思考的课题。目前管理类书籍大多都把主要的内容关注在战略管理理论方面,都是聚焦在如何通过内外部环境分析,上下游价值链的梳理来选择公司的战略方案,制定公司的战略目标。战略执行方面的研究和讨论通常都是被归类在战略管理和战略学习分类
学位
2019年,世界经济进入了低迷期,贸易摩擦和单边主义加剧,世界经济增长停滞,各国经济增长情况也不容乐观,甚至出现了负增长。当前由于某些国家挑起贸易摩擦导致全球经济波动风险不断增加。投资市场的潜在风险进一步增加,很多国家进入负利率时代,“负利率正在撕裂整个世界”1。“负利率下,央行很难保证货币政策的有效性,给经济环境蒙上了一团云雾,权益市场波动性和潜在风险大大增加”2。“当前环境下,贵金属的保值和分
学位