面向流数据分类的在线学习算法研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:huaweihbl999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
流数据分类是流数据挖掘中一个非常重要的任务,该任务旨在从连续不断到达的流式数据中增量学习一个从输入变量到类标变量的映射函数,以便对随时到达的新样本进行准确分类。在线学习范式,作为一种增量式的机器学习技术,是流数据分类的有效工具。近年来随着大规模应用的兴起,在线学习范式开始受到广泛关注和应用。本文重点研究面向高维和演化流数据分类的在线学习算法,具体地,针对高维流数据展现的“维度诅咒”挑战和演化流数据存在的“概念漂移”挑战,本文分别研究了在线特征选择算法、稀疏在线学习算法和资源高效的在线集成算法。本文的主要工作及其创新点包括:1.提出了两个基于自适应次梯度方法的在线特征选择算法,算法基于l0的截断方法取得稀疏性,在评估特征重要性时,既考虑了特征在当前预测模型中的权重,又考虑了特征在历史预测序列中出现的频率。与需要通过精细调节l1正则化参数来控制特征选择数目的l1正则化方法相比,所提算法通过将所需预算作为输入参数,易于控制特征选择的数目。对两个算法进行了详细的悔恨分析,并在6个高维数据集上验证了所提算法相比于目前先进的在线特征选择算法和基于l1正则化的稀疏在线学习算法的性能优势。2.分析了演化环境中3个经典的梯度下降算法的shifting悔恨界,证明步长的选择对于梯度下降算法的概念漂移适应能力有重要影响。具体地,使用不变的步长调度比使用递减的步长调度算法能取得更好的概念漂移适应性,为该理论分析提供了实验上的证据支持。基于上述理论和实验分析的结果,提出了一个稀疏近似线性分类算法,该算法使用不变的步长调度以便具有更好的漂移适应性,在每轮学习中,算法首先执行一个梯度下降得到一个中间解,然后在中间解附近找到一个最稀疏的新解,这涉及到求解一个非凸的优化问题,证明该优化问题可以通过一个简单的贪心截断方法高效求解。一个截断误差参数可以控制中间解和新解之间的远近程度,从而控制模型的稀疏度从无稀疏性到完全稀疏性连续变化。给出并分析了所提算法的shifting悔恨界,并通过大量实验证明所提算法相比于先进的稀疏在线学习算法在高维的稳态流数据和演化流数据上均具有优越性。3.提出了一个资源高效的在线集成分类算法,该算法使用在线的核SVM算法—BPegasos作为组件分类器来解决高维流数据上的可扩展性问题和每个概念中的小样本问题,并通过充分利用BPegasos的特点来更好地处理各种类型的概念漂移。具体地,通过使用不同预算大小的BPegasos来构建多样性的组件,并为每个组件分类器配备了一个漂移检测器来监测和评估组件最新的性能,当漂移检测器检测到某些组件的性能发生严重退化时,就触发一个漂移警报,集成算法因此开始进行组件结构调整,将当前组件中性能最差的组件及其漂移检测器重启,使得最差的组件可以在最新的数据上重新开始学习。最后,在高维流数据上的实验表明所提集成算法相比于目前最先进的Hoeffding树集成算法在序列准确率和资源利用效率上都具有优势,在大量合成和真实的具有概念漂移的数据集上,当所有对比的集成算法都使用BPegasos作为组件分类器时,所提算法也表现出显著更好的能力处理各种类型的概念漂移。
其他文献
目的:观察宁泌泰胶囊联合左氧氟沙星片治疗泌尿系感染下焦湿热证的临床疗效。方法:选择2012年4月—2014年10月于本院就诊的126例经中医辨证为下焦湿热证泌尿系感染患者,随机
本文介绍了使用C++语言,采用面向对象的程序设计方法设计一个刀具轨迹仿真软件的思想及其实现。
准公共产品既有公共产品特性又有私人产品特征,在卫生服务领域是更为常见的产品类型。政府利用市场机制提供准公共产品是许多国家的经验。体现公益性和促进市场竞争也是我国
经问卷调查,"90后"中学生的应对方式、价值观和心理健康三者之间存在相关:应对方式在性别、年级、父母职业等人口学变量上有显著差异,女生的幻想、自责分显著高于男生。退避
控制人类免疫缺陷病毒(HIV)/艾滋病流行的最大希望是研制安全、有效的预防性疫苗,本文介绍了1987年以来,全球HIV疫苗的发展和Ⅰ、Ⅱ、Ⅲ期临床试验情况,同时讨论了HIV疫苗研究中所
甾体激素和其作用机制发现的历史回顾第二军医大学生理学教研室(上海200433)诸秉根甾体激素主要包括性甾体激素及肾上腺皮质甾体激素两大类。前者有雄激素、雌激素及孕酮等;后者主要有
中学文言文教材注释对中学生很具权威性,而中学生在文言文注释问题上又缺乏鉴别能力,因此,笔者对中学文言文教材注释中一些注而不确或当注不注的地方提出了自己的看法.
亚里士多德是古希腊伟大的思想家、自然哲学集大成者,牛顿是近代伟大的物理学家、自然哲学家。在他们的物理学探索中都涉及到宇宙运动变化的终极问题:第一推动。但是,两者对
本文基于语料分析《康熙来了》中两个较特别的话语标记"所以"和"这样",区分它们作为连词或指示代词和作话语标记的不同,探究话语标记对衔接语篇与进行会话的作用,认为高频使
介绍了近几年块状光学玻璃型电流传感头的设计方案 ,并指出它们的优缺点 ,最后给出一些改进方法。