基于划分与抽样的回归加速算法研究

来源 :山西大学 | 被引量 : 0次 | 上传用户:onewxf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的高速发展,来源于各行各业的数据正在以前所未有的速度增长,促使我们进入一个海量数据时代。面对海量数据,传统的数据挖掘技术在执行效率上受到了严峻的挑战,因此探索快速有效的加速学习算法是极其重要的。目前,现有的加速学习算法研究主要是关注大规模数据分类问题,回归与分类同等重要,但对于回归问题的研究相对较少。为此,本文以划分与抽样为研究策略,针对传统回归分析算法执行效率低的问题进行了系统性研究。主要工作概括如下:(1)利用分而治之思想提出了一种基于数据划分的核岭回归加速算法。首先利用一簇平行超平面将当前数据所在的空间划分为若干个互不相交的区域,然后在划分后的每个区域上训练核岭回归模型,最后每个核岭回归模型预测落入同一区域内的待识别实例。实验结果表明,提出算法的执行效率大幅度提升,为研究面向大规模数据的回归加速算法提供了一个可行性方案。(2)针对回归算法中核矩阵运算速度慢的问题,本文提出了一种基于两阶段抽样的核矩阵近似算法。首先使用聚类算法将数据分块,并采用抽样的策略分别计算每块数据核矩阵的低秩近似矩阵;然后基于标记信息构造块与块之间相互贡献的度量,进行二次抽样,抽取部分非对角块核矩阵;最后用对角块低秩近似矩阵来逼近非对角块核矩阵。实验表明该算法能够大幅降低核矩阵近似的计算量,提高了回归算法的执行效率,为研究大规模数据背景下基于低秩矩阵近似的高效回归加速算法提供了新的研究思路。本文针对回归分析处理海量规模数据效率较低的问题,提出了两种回归加速算法,在提高效率的同时兼顾了算法预测性能。本文的研究成果为大规模数据环境下的回归分析问题提供了新的策略,进一步丰富了回归加速算法的研究内容。
其他文献
<正>2017年4月24日,上海石化以己烯为共聚单体,试生产出高密度双峰聚乙烯管材料,进一步巩固了该公司在国内聚乙烯管材专用料产品中的领先地位。据了解,相比于以1-丁烯为共聚
研究了氢氧化钙、石膏、硫酸钠三种激发剂对钢渣-矿粉胶凝材料力学性能的影响,并结合XRD图谱分析了激发剂对钢渣-矿粉胶凝材料水化产物的影响机理。试验结果表明,三类激发剂
<正>陈越的这本书乃是他的博士论文的修订稿。记得论文最初的题目是《"诗的新批评"在现代中国之建立》,在预答辩的时候有几位老师担心这个说法过新,且有与英美的"新批评"攀比
结构洞和网络封闭结构是产业集群中两种典型的网络结构,它们的主要特征影响着集群企业知识升级。采用了案例分析的研究手段,选择四川省依格尔纺织品有限公司两次知识升级作为
农村宅基地抵押贷款对于乡村振兴战略,发展农业规模经济,促进农民增收有着重要意义。针对农村宅基地抵押的影响因素,文章以重庆市巴南区6个镇700户农户调查数据为依据,结合政
氯苯类化合物(chlorobenzenes,简称CBs),属于芳香族氯化物,也是一类持久性有机污染物(POPs)。CBs及衍生物一般可以作为化工染料、有机合成的中间体和有机溶剂,因此,在医药、制革、
【正】 一九八五年元旦前夕,我校隆重举行建校二十六周年,改院二十周年和更名为山西师范大学的纪念活动。十二月二十九日隆重举行校庆典礼。参加校庆典礼的有:中共山西省委宣
混凝土的徐变容易导致大跨径连续刚构桥的长期变形,而高原地区较低的湿度会加剧混凝土的徐变,影响混凝土结构的性能。本文结合高原地区的环境特点,考察大气温湿度对于混凝土
<正>数学老师每天备课的时候都离不开数学教材,"备教材"是老师们一项重要的日常工作。那么,到底怎么样做好这项工作呢?在很多成熟的老师看来,书上的定义、公式、定理、法则、
壳聚糖/环糊精是一种新型的生物医学材料。综述了近年来壳聚糖/环糊精在生物医学材料方面的研究进展,主要包括其作为药物载体材料、组织工程支架材料、基因载体材料及选择分