面向在线学习的特征选择算法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:A359714977
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的机器学习算法大多采用批量学习模型,需要预先收集大量训练数据。但在数据量、数据维度快速增长的今天,接收到新数据到之后,批量学习模式需要重新对样本进行训练,会消耗大量的时间和计算成本。特别是在物联网、新兴社交网络和金融等领域,数据维度有近十万甚至更高。通过剔除相关性不大或冗余重叠的特征,能够降低计算成本,提升模型泛化能力。因此,本文针对在线学习中的特征选择算法进行研究。对于单任务在线学习特征选择算法,本文将Passive-Aggressive(PA)算法引入在线特征选择算法框架中,提出了一种新颖的基于特征选择的在线学习算法(Passive Aggressive Backward Splitting,PABS)。PABS算法能达到原来PA算法相同甚至更高的分类精度,同时依旧具有在线特征选择算法筛选冗余特征值,降低运算复杂度的特性,使系统以较少的运算资源保持对分类具有重要意义的核心特征,降低模型学习负担。当单任务训练数据不充分时,利用相互关联的多个任务进行学习,能够明显提高算法的泛化能力。对于多任务在线学习中的特征选择问题,本文提出协同多任务在线特征选择算法(Collaborative Multitask Online Feature Selection,CMOFS)。该算法利用多个任务之间的相关性,一方面根据全部样本信息建立全局模型,另一方面为每个任务单独训练模型,根据全局模型和单独模型的预测效果,动态调节权重,增强算法的泛化性能,最终提高全部任务的学习效果。针对上述算法,均采用机器学习领域公开发表的数据集进行实验,实验结果表明,本文提出算法可以得到更好的学习效果。
其他文献
户外拓展体育教学已经成为发达国家广泛采用并实践证明行之有效的体验式教学方式。通过试验法展开户外拓展体育教学对学生整体素质影响的实证研究。研究结果表明开展户外拓展
蒸汽发生器是压水堆核电站一回路压力系统中最重要的设备,其中的传热管需要在核电站一回路燃料高温释氢环境中长期服役,高温高压氢会导致传热管塑性大幅降低,甚至引起氢致断
本文以集成管理理论方法为理论框架,对产业园区公共服务平台构建的相关要素进行分析,提出了平台服务方向、平台架构设计和发展建议,以期对产业园区公共服务平台建设和运营提
目的探讨各级医院蛛网膜下腔出血(subaraehnoid hemorrhage,SAH)的CT漏诊情况及可能原因。方法回顾性分析近10年国内文献发表的各医院CT检查漏诊的143例SAH的临床资料。结果
本文简述了微生态制剂的分类、益生菌防治幽门螺杆菌(Hp)的临床效果和可能机制,益生菌联合三联疗法可能是提高Hp根除率的一种新方法,值得进一步探讨。
目的探讨脾动脉瘤的诊断和手术治疗方法。方法回顾性分析7例脾动脉瘤患者的临床资料。结果6例经彩色多普勒超声(B超)初步诊断;4例经CT动脉造影(CTA),2例经数字减影血管造影术
澳大利亚作家戴维·马洛夫的小说《忆起了巴比伦》自出版以来,在广受赞誉的同时也受到了部分质疑和批评。有评论家认为这部小说在土著问题上忽略了他们遭受的压迫,"将政治一
本文结合典型实例从理论和实践的角度论述英汉长句的主要译法:1.顺序法;2.逆序法;3.调整顺序法;4.分译法;5.综合法。这些译法建立在英汉两种语言的共性、特性及其习惯表达法
在语文课堂教学中,课本剧正契合了新课程的理念——“把课堂还给学生”“让课堂焕发出生命活力”,师生的生命活力在课堂教学中得到充分发挥,有助于推动学生综合素质的培养和
本文立足于19世纪初俄罗斯文学背景,探讨了俄罗斯长篇小说文体最初的演变和发展的历程,分析了普希金、莱蒙托夫和果戈理的长篇小说在文体上的形态和特性,论述了他们的代表作