面向流式数据的演化式预测技术研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:fire1977
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着信息科技的发展,数据的累积正在飞速的发展,使得机器学习和数据挖掘领域也得到了飞速的发展。然而,越来越多的数据是以流式数据出现的。与传统批数据不同,流数据具有速度快,数据量大,不可再现,有序等特点,使得传统的批处理预测技术不太适合这些流数据。面对数据流出现的各种特点,本文研究的内容是面向数据流的演化式预测技术。增量学习主要是针对流式数据的一种技术,当数据流源源不断到来时,原来的学习模型随着新数据的到来进行调整,模型参数也随之变化。概念漂移是数据流的特点之一,这也是现如今数据流挖掘领域最大的挑战之一。当数据流逐渐发生概念漂移时,由于数据分布发生变化,其学习模型对于数据流的预测性能慢慢下降。故需要能够及时探测其是否发生概念漂移,然后对模型进行调整和训练,之后再进行动态数据流的预测。本文针对数据流中概念漂移的发生,概述目前已有的探测与解决方法。然后针对该研究所面临的问题,提出本文的研究课题。针对稠密的数据流,本文提出一种基于无限的,高速的,时间变化的数据流,能够增量地学习数据流的竞争集成算法。该算法集成两棵增量模型树FIMT-DD,基模型FIMT-DD是一个时间变化学习数据流的算法。在所提出的的算法中,是通过学习两棵这种增量模型树,在滑动窗口内用性能更好的全局或者局部基模型作为最终预测的模型,该基模型更加适应将要到达的新的数据流。同时算法所需的空间复杂度也并不是很高。在发生概念漂移时,实现局部变化的检测和适应。最后实验表明,该算法无论是平稳数据流还是非平稳数据流,都可以很好适应。针对稀疏的数据流,本文改进目前表现最好的在线稀疏数据流分类算法FTRL,使得它能够很好地应对数据流概念漂移的问题。由于在稀疏数据流发生漂移情况下,此时原算法FTRL的模型参数基本已经固定,同时学习率非常低,普通的FTRL算法已经不能学习到新的概念。因此,在改进中,模型先探测数据流发生概念漂移的情况。若发生,对FTRL模型进行调整并重新训练,迅速使得FTRL适应新的数据流。经过仿真数据流表明,改进后的模型可以很好地解决各种概念漂移数据流,并且具有很好的鲁棒性和稳定性。
其他文献
乒乓球双打项目是世界乒乓球正式比赛中的重要项目。我国乒乓球单打项目在世界乒坛长期处于领先地位,亚欧不少国家希望通过加强乒乓球双打的训练,能在世界乒坛占据一席之地。2020年,乒乓球混合双打项目作为东京奥运会乒乓球比赛的新增项目,更是让亚欧等世界一流强队看到了乒乓球项目夺金的希望。这不仅为乒乓球双打增添新的活力,也对乒乓球双打项目的研究提出了新要求。从乒乓球实践研究来看,国内乒乓球常规性和针对性训练
争光金矿位于大兴安岭东北部地区,是多宝山矿集区内重要的金矿床,目前已经开发。该矿床金的储量已达35吨以上,平均品位为3.49克/吨,达到大型金矿床的规模,矿床可分为Ⅰ、Ⅱ、Ⅲ三个矿带,其中Ⅱ号矿带其位于矿床的中部,为矿区规模最大的矿带。争光金矿已有研究主要集中在矿床特征、矿床类型方面,该矿床的矿体通过肉眼不易区别,以往一般是通过样品分析测试来确定矿体,效率低下,PIMA测试具有快速、低成本的优势,
受土地资源的制约,有限的地上空间已经越来越难以满足城市集约化发展的目标,需要不断的往地下发展,二层三层的地下室已屡见不鲜。地下结构复杂、施工困难、开发周期长、工程
酶是一种具备专一性强、催化效率高、反应条件温和、对环境友好可降解等优点的生物催化剂,且符合原子经济和绿色化学的要求。然而,近期研究表明许多酶似乎扮演着“多面手”的角色,其活性位点可催化许多不同化学反应,这种特性被称为酶催化非专一性。本论文主要研究了以超临界二氧化碳(scCO_2)作为反应介质在酶催化非专一性反应中的应用,拓宽了scCO_2在酶催化有机化学合成中的应用范畴,同时也为绿色化学的发展做出
混凝土快冻法试验中耐久性系数是表征混凝土抗冻性能好坏的一个指标,通过试验对比混凝土耐久性系数与强度下降率之间进行回归分析,发现二者呈现出极强的相关性,相关系数达到0
牙周炎是以牙菌斑为始动因素的慢性感染性疾病,迄今,牙周炎的病因仍不明确。Th17细胞亚群是一种与白细胞介素(IL)-23和IL-6相关的能够分泌IL-17的CD4+Th细胞亚群。Th17细胞与
“七五”期间,我区财政收入比“六五”期间增长了103.5%,平均每年递增9.4%,1990年又比1985年增长97.9%,增长速度高于全省八地区平均增长速度14.9个百分点,居第二位,比1989年增长
在铁路的日常运输生产中,车流量的统计工作非常规范,资料翔实,但是影响车流的因素也非常复杂。介绍车站的统计分析工作,并利用正交多项式建模,对车流进行拟合分析,最后举例分析,取得
金属尾矿中的硫化物在空气、水和微生物作用下发生氧化,经雨水径流作用形成含有重金属离子的酸性矿山废水,流入周边河流,导致水体酸化并存在潜在的重金属污染风险。本论文以安徽省庐江县钟山铁尾矿区周边的失曹河与黄屯河为研究对象,在两条河流布点、采集具有代表性的表层沉积物样品,分析沉积物的粒度组成、含水率和Mn、Ni、Cu、Zn、Pb和Cd 6种重金属含量以及BCR形态含量,研究河流沉积物重金属总量及其形态的
在生鲜调理猪肉中,微生物腐败被认为是引起腐败变质的主要原因。为了抑制微生物的腐败变质,除了规范的生产工艺、防腐保鲜剂等,可食性涂膜材料保鲜也是一种有效地抑菌保鲜方