先验信息下Elastic Net方法的改进及应用

来源 :浙江工商大学 | 被引量 : 0次 | 上传用户:googto0726
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着近年来大数据相关技术的兴起,数据收集技术的进一步的发展,高维数据大量出现在自然科学、生物医药、信息科学等领域。处理高维数据时,变量选择是一种行之有效的方法,能够减少无关变量的影响从而达到降低维度的效果。在众多变量选择方法中,Elastic Net方法可以高效处理带有强相关变量组的高维数据,得到可靠的参数估计。因此,Elastic Net方法的相关研究在统计学领域中得到很大的关注。针对如何改进Elastic Net方法这个问题,本文提出了一种新的改进方法,即基于先验信息的Elastic Net方法。具体而言,借助稀疏框架将先验信息融入到Elastic Net模型中,从而提高模型的拟合效果。本文在给出该方法的定义之后,在理论层面上给出了相应的求解算法,并证明了基于先验信息的Elastic Net方法同样具有组效应性质。之后通过多组数值模拟表明基于先验信息的Elastic Net较于Elastic Net方法有着更好的稳定性和精确度。针对基于先验信息的Elastic Net方法的应用问题,本文考虑将基于先验信息的Elastic Net方法应用于缺失数据领域。常规的缺失数据处理方法在处理缺失比率较大的缺失数据时一般不能起到良好的效果。本文提出的基于先验信息的Elastic Net方法能够为其提供另外一种思路。首先从存在缺失现象的样本中提取先验信息,之后再利用这些先验信息来提高模型的拟合效果。本文最后分别在模拟数据以及真实数据上进行实验,结果表明基于先验信息的Elastic Net方法确实能够利用从缺失数据中提取的先验信息来提升模型效果。
其他文献
本文主要研究我国高水平青少年女子铅球运动员于天笑在固定时间内提升竞技水平的原因,运用文献资料法、专家访谈法、三维图像分析法、个案分析法、对比分析法、数理统计法对该年度训练内容进行系统的研究,其中利用专家访谈与实际跟队进行资料数据收集,并使用运动学三维图像为于天笑建立运动模型,获得重要运动学数据。在本文科研期间设立两次运动学测试,根据数据对比进行分析并得出结论。旨在全面了解青少年高水平女子铅球运动员
禁止反悔原则源于英美法系,是诚实信用原则在专利法中的延伸,在专利侵权诉讼中被不断地完善,如今已经成为大多数国家解决专利侵权纠纷的重要原则。这项原则被引入我国后,经过多年的司法实践,目前已经被编入审理专利侵权纠纷案件的司法解释中,成为专利侵权判定的一个重要原则和手段。但是现有的司法解释含义还较为模糊,实操性较差,各地法院在审理类似案件时,经常会出现判决结论相互矛盾的情况。为了能够使这项法律原则更好的
随着人类历史的发展,教育在社会、家庭中越来越受到重视,从而使得校园欺凌事件也越来越多的闯入人们视野并引起了整个社会的关注和讨论。校园欺凌极大地损害了学生们的身心健康,破坏了校园的教育教学环境,也极易发展为危害性很强的社会性问题。然而针对校园欺凌普遍存在的现状并没有一个行之有效的解决措施。本研究在大量查阅文献资料的基础上,以河北省唐山市玉田县C中学为例,对该校476名学生进行问卷调查,对2名教师进行
消除贫困是联合国千年发展的目标之一,是人类经济社会发展需要共同面对的艰巨任务。新中国成立70年来,党中央、国务院高度重视减贫扶贫,出台实施一系列中长期扶贫规划,我国反贫困事业取得的巨大成就,根据官方发布的统计数据,全国农村贫困人口由2010年1.66亿人减少至至2018年的1660万人,年均减贫1863万人,累计减贫幅度达到90.0%,贫困问题得到极大改善。目前我国正处于全面脱贫攻坚的关键时期,贫
互联网第三产业的飞速发展加速了大众消费生活方式的改善和质量的提高。5G时代的到来就是商业机遇的到来,线上企业和实体企业都乘着大数据+5G的“东风”,加快大数据和物联网的步伐。2019年10月发布的《中国汽车产业发展报告》以“面向未来出行的汽车产业变革与协同发展”为主题,同时指出科技革命必会推动汽车产业的变革。目前国内经济社会转型发展环境压力加大,社会周期结构性突发舆情因素增多,加强大数据分析研究,
随着互联网信息技术的蓬勃发展,财经新闻文本数据海量增长,这些不断丰富的网络新闻信息逐渐成为影响市场波动的重要因素。股票是当下最为常见的一种投资方式,然而股票投资在获得高收益的同时往往伴随着高风险。因此,如何利用外界价值信息提高股票预测准确度,降低投资风险,成为了研究者们关注的焦点。基于以上背景,本文从文本大数据角度出发,对财经新闻文本信息进行分析,挖掘其中所包含的情感与情绪,构建衡量投资者情绪的指
生存数据是由生存时间和影响生存时间的协变量因素组成,由于信息的完整性不同,分为完全数据和删失数据,而删失数据在生活中更为常见,具有极大的研究价值。其中删失数据的类型的多样影响着研究方法的多样化,从线性回归模型到分位数回归模型,从参数领域到非参数领域的估计方法,均是为了能够更好的拟合现实生活中复杂的数据类型和数据表现。在均值回归不能满足研究需求的情况下,引入了分位数回归思想和非参数方法,比较了核估计
电子商务从刚刚兴起到成为人们日常生活中重要的角色只经过短短的三四年,如今中国的电子商务技术产业已经形成了非常庞大、完整的生态系统。电子商务的快速发展与其方便快捷、省时省力的特点密不可分,同时,由于电子商务中不需要商家与用户面对面交易,导致商家无法准确把握用户的偏好与需求。随着大规模数据行业的高速发展,电子商务行业也迅速崛起,该行业中,在用户与平台达成交易后,平台中会留下许多相关数据,包括用户特征数
受环境、气候、生活习惯等因素影响,中国肺病发病率在逐年攀升。肺部疾病在对肺部造成影响的同时,还会引发多种并发症,如:气管炎、心脏疾病、淋巴系统疾病等。CT影像因其具有分层薄、高清、低噪声的优势,是肺部疾病最有效的无创检测技术,被广泛用于肺部疾病筛查和辅助诊断。随着科学技术的发展,机器阅片辅助医师进行病灶位置筛查、疾病诊断逐渐被大众所接受。传统的机器阅片通常是通过经验丰富的医师运用医学知识观察病灶直
由于近年来经济发展和能源消耗造成的碳排放大量增加,温室效应日趋严重,我国作为世界第二大经济体,对碳排放造成的环境问题十分重视,从90年代至今相继提出新能源战略、单位GDP减排目标和碳排放峰值目标。但作为发展中国家,我国工业化进程尚不完善,基础设施建设仍有很大发展空间,必须依靠政府宏观调控的作用,制订长期合理的减排政策,实现工业发展和减少排放的双赢。由于环境变化和经济波动的随机性,环境政策对经济和环