特征选择与特征学习算法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:lanyunbw2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息时代的到来导致在机器学习过程中,学习数据趋向于更大规模,更高维度,并且具有复杂噪声,从而给模型的训练与学习提出了挑战。因此,充分地对数据进行分析挖掘,提取出数据中的关键特征和潜在信息,具有重要的研究价值和意义。本文分别从特征选择和特征学习两个方面进行研究。特征选择旨在从数据中利用一定策略选择出原始特征集的一个最优子集。现有的特征选择算法,主要通过考虑特征与目标任务的相关度评估特征的重要性。在监督学习中,考虑特征与目标的统计相关性,在无监督学习中,根据特征与样本结构的契合程度,评估特征在样本集上的区分能力。除了考虑特征的相关度,本文提出结合特征相关度和冗余度的特征选择算法FSIR2,算法基于谱特征选择理论评估特征的相关度,同时考虑特征集内部的冗余度,通过最大化特征与目标的相关度,最小化特征之间的冗余度,进而确定最优特征子集。算法适用于监督学习和无监督学习两种条件。不同于特征选择,特征学习致力于将原始特征集映射到新的特征空间,学习数据的最优表达。现有的特征学习算法主要分为传统学习算法和基于神经网络的算法两种。目前,大量工作基于卷积神经网络、递归神经网络等进行监督特征学习,而充分利用大量低成本的的无监督数据进行特征学习的研究工作不足。本文提出基于卷积自编码网络的特征学习算法SoundAutoEncoder。算法针对视频数据中的音频数据进行无监督的特征学习,一方面利用卷积自编码网络,以充分挖掘音频数据中的有效信息进行特征学习;另一方面利用视频数据中图像数据与音频数据的天然一致性,通过完善的视觉识别模型提取图像数据中的语义信息,进而指导音频数据的特征学习过程。对于FSIR2算法,本文在监督学习和无监督学习两种条件下,在10个数据集上进行实验,测试其所选特征集上的分类、聚类准确率,以及特征之间的冗余度。在与相对表现最好的算法MCFS的对比中,FSIR2算法在聚类结果的准确率、NMI上提升了 4%,在冗余度上降低了 5%,在分类结果的准确率上与MCFS表现相当。对于SoundAutoEncoder算法,本文通过在三个数据集上的场景分类实验,测试其特征学习能力。在分类准确率的比较中,SoundAutoEncoder相比 SoundNet 算法在 DCASE-2016、ESC-10、ESC-50 数据集上分别提升了 0.6%、6.9%、6.3%。
其他文献
网格计算作为一种新型的具有广泛应用前景的分布式技术,其安全问题一直是研究的热点。在网格计算环境下,网格中的资源具有一些其它系统中的资源所不具备的特点,包括资源异构
现时代不断发展的互联网使电子邮件用户的数量也跟随不断地增加,电子邮件成了人们工作,生活必不可少的交流工具。但是,垃圾邮件也随之不断蔓延,这给电子邮件服务提供商和用户带来
本文以多个轮式机器人组成的多自主车系统为研究背景,结合Ad hoc网络技术与NS-2的网络模拟实验,对多自主车系统的网络传输进行了优化研究。本文首先介绍了多自主车网络的通信
软件复用是在软件开发中避免重复劳动的解决方案,出发点是应用系统的开发不再一切从零开始,而是以已有的工作为基础,充分利用过去应用系统开发中积累的知识和经验,从而将开发的重
数据库系统中的日志与并发操作技术一直是数据库系统的研究热点。近年来,随着相变存储器(Phase Change Memory,PCM)等新型非易失性存储器(Non-Volatile Memory,NVM)的出现,使
移动群智感知是一种新兴的感知模式。它借助移动互联网进行通信,将携带了智能设备的用户看成移动传感器,通过他们的协作来完成一些传统网络难以解决的大规模感知任务。在决定
随着市场竞争的日益激烈,企业之间的联系越来越紧密,企业必须寻找一种方法能够对其业务进行快速重组和快速应变,以提高自身的竞争力和适应性。Web服务组合是获得上述目标的一个
如何生成真实感三维人脸模型是计算机图形学和计算机视觉领域一个重点研究课题,当前三维人脸建模技术应用领域涵盖计算机人脸动画、影视、虚拟现实、人脸识别、游戏等多个方面
在激光通信中,对信标光斑的捕获、瞄准和跟踪,即APT (Acquisition, Pointing and Tracking)技术非常重要,决定着通信链路的建立与维持是否成功。本文将摄像测量系统的摄像机
在现实世界中,大量的复杂系统都可以用抽象的社会网络来表示和分析。继发现社会网络的小世界性、无标度性以后,人们发现了它的另一个统计特征——簇结构特性,它具有相同簇结构内