【摘 要】
:
随着计算机技术的飞速发展,人类收集数据,储存数据的能力得到了极大地提高,无论是科学研究,还是社会生活的各个领域都积累了大量数据,截止2012年,数据量已经从TB(1024GB=1TB)
论文部分内容阅读
随着计算机技术的飞速发展,人类收集数据,储存数据的能力得到了极大地提高,无论是科学研究,还是社会生活的各个领域都积累了大量数据,截止2012年,数据量已经从TB(1024GB=1TB)级跃升到PB(1024TB=1PB)级、EB(1024PB=1EB)级乃至ZB(1024EB=1ZB)级,国际商用机器公司(IBM)的研究结果表明,整个人类文明所获得的全部数据中,有90%是过去两年内产生的.而到了2020年,全世界所产生的数据规模将达到今天的44倍,这就是所谓的大数据时代.面对大数据,传统的机器学习算法,如用于解决模式识别问题的支持向量机分类(Support Vector Machine Classification,简称SVMC)和用于解决回归估计问题的Ridge回归、支持向量机回归(Support Vector Machine Regression,简称SVMR)等机器学习算法的执行通常需要求解一个2次优化问题,其算法的复杂度大约为O(n3),其中n是训练样本的数目.特别的,当训练样本的数目n ≥ 10000时,这些算法通常是很难执行的,这意味着上述这些算法都是小样本情形下的机器学习算法,而对于大样本情形,我们通常采用的是在线学习算法.因为无论从理论上,还是实际应用上,数据是独立同分布的假设都是非常强的,为此,在本文,我们研究了基于非独立同分布数据的在线学习算法的推广性能.本文首先介绍基于混合序列的在线学习算法的推广性能.对于分类问题,我们设计出了基于马氏抽样的在线SVMC算法,通过实际数据的数值实验研究,我们发现,基于马氏抽样的在线SVMC学习算法确实比基于随机独立抽样的SVMC算法具有比较好的学习性能.
其他文献
栓皮栎(Quercus variabilis BI.)是我国分布广泛的壳斗科树种,其坚果被称为橡子,橡子中淀粉含量达50%以上,并含有脂肪、氨基酸、纤维素、矿物质元素等多种营养物质。近些年,
目的:本实验通过用小分子物质ST3205转染成纤维细胞,用嘌呤霉素筛选GFP+细胞,再用神经细胞培养液体外诱导分化,显微镜下密切观察并记录细胞形态的变化,用免疫荧光、激光共聚
近些年来,由于在编码、密码学、组合设计以及其他数学和工程领域中的广泛应用,置换多项式引起了学者们极大的研究兴趣.设p是一个奇素数,m为一个正整数,n=2m,有限域Fpn上的Nih
民营经济是我国社会主义市场经济中的重要组成部分,其健康发展对国民经济的高质量发展具有重要的影响作用。近年来,R市T镇汽摩配行业中小民营企业员工离职率一直居高不下,成为企业发展的重要阻力。特别是在当前由新冠疫情引起的复杂的社会背景以及紧张的经济背景下,保持员工队伍的稳定对中小民营企业战胜各种风险挑战以及实现可持续发展具有重要意义。一直以来,员工离职倾向研究都是企业人力资源管理领域中的关注焦点。传统的
自从Linked Data项目被提出以来,大量的开放关联数据被发布到Linked Open Data平台上,这其中就包含许多的生物途径数据集。传统的生物途径可视化工具多是基于单一的关系型数
本文运用图变换和图对称的方法,研究具有乘积形式的Kirchhoff指标的极值结构,刻画出了仙人掌图的乘积离心率的电阻距离的极值结构图以及直径为2的图的乘积离心率的电阻距离和
随着社会的不断发展,污染问题变得越来越严重,特别是重金属离子如Cu2+和Hg2+等所导致的污染问题变得不可忽视,所以针对这些离子的检测手段的发掘也变得越来越重要。目前主要
网球是一项具有深厚的文化底蕴、时尚、健康的运动,能满足人们身心向更健康的方向发展,对于人们增强体质、切身参与到全民健身、最终实现终身体育有着巨大的推动作用。随着社
本文研究了一类带有多个临界非线性项和多个奇点的半线性椭圆方程组.运用变分方法,证明方程组Rayleigh商极小值和基态解的存在性与唯一性.本文分为以下三个部分:在第一章中,
微课是建立在信息技术发展的基础上,按照人的认知规律,以碎片化的视频形式展示学习内容、过程的一种结构化数字资源,它改变了传统学生被动接受知识的教学模式,不再是教师一味的灌输知识,而是构建一条层次清晰、脉络合理的学生课前预习、课中教师点拨和课后强化复习的学习线路,让学生主动参与,教师积极引导的一种新型师生互动教学模式,在很大程度上提升了课堂的效率。当前,微课的教学方法大多集中应用在基础教育层面,而在高