【摘 要】
:
特征提取是数据挖掘、机器学习以及模式识别等领域研究的关键问题之一。其目的是删除无关信息、冗余信息,减少特征维数、存储空间,降低噪声干扰、计算复杂度以及提高模型泛化
论文部分内容阅读
特征提取是数据挖掘、机器学习以及模式识别等领域研究的关键问题之一。其目的是删除无关信息、冗余信息,减少特征维数、存储空间,降低噪声干扰、计算复杂度以及提高模型泛化能力等。本文研究一种新的过滤一包装组合式特征提取方法,即在流形学习的基础上引入ReliefF特征估计方法。主要研究工作有:
(1)ReliefF特征估计方法与流形学习的结合。本文提出的改进算法ReliefFM针对流形学习存在的对噪声敏感、易受缺失值影响问题以及现实世界数据的结构复杂性和稀疏程序大等问题,引入了ReliefF特征估计以改进流形学习方法的不足。实验结果表明,改进算法不仅能够抗噪声、处理缺失值,而且也提高了特征选取后数据集的分类准确率。
(2)本文使用了流形学习中有代表性的局部线性嵌入算法,ReliefF特征估计方法,UCI中的Acene数据集,libSVM分类器以及WEKA数据挖掘工具进行实验。分四种情况:一是不使用特征提取方法;二是仅使用ReliefF特征估计方法;三是仅使用局部线性嵌入算法;四是使用ReliefFM算法。通过一系列的实验结果分析比较,得出改进算法的分类准确率分别比单纯使用ReliefF特征估计方法和局部线性算法都要高。
(3)设计并实现了一个ReliefFM系统。该系统能够对给定的数据集首先进行特征估计,然后对特征选择结果进行流形学习,最后使用libSVM分类器并加以10层交叉验证。该系统的实现有利于对特征提取后的数据集进行后期分析和处理。
其他文献
粗糙集作为一种处理不确定性问题的方法,在理论和应用研究方面都取得了重要成果。粗糙集将论域划分为正域、负域和边界域,划分的过程完全基于数据集本身,不需要预处理过程或
医学图像处理的研究开始于七十年代后期,而真正的临床应用始于1973年,而此时正是核磁共振实现临床应用,为影像医学开辟了新的知识领域。医学图像处理,包括医学图像分割、医学
随着我国电网智能化程度越来越高,越来越多的具有通信功能的用电信息采集终端在电网中使用,对低压电力线载波通信的要求越来越高;同时用电负荷终端产生大量谐波,使得电参量的
随着互联网的发展,计算机网络与通讯技术的发展与广泛应用,电子邮件已经成为必不可少的通讯方式,但是随之而来的垃圾邮件却成为互联网上一个日益严重的安全问题。因此,解决好
覆盖问题在许多无线传感器网络应用中至关重要,逐渐成为人们研究的热点问题之一。根据覆盖对象的不同,覆盖问题可以分为三类:区域覆盖、目标覆盖和栅栏覆盖。本文首先对无线传
一些视频终端设备如移动可视电话、无线PC摄像机由于受到计算能力、电能容量等方面的制约,其性能上要求低计算复杂度的视频编码算法。而解码端具有丰富的计算资源,可以承受复
笔迹鉴定是一个从大量参考文档中寻求真正作者的过程,它通过统计不同作者的书写“习惯”以区分不同的作者。目前书写习惯可以利用聚类统计,其中每种书写习惯称为原型(Prototy
由于拥有无止尽的信息资源,互联网正以一种超乎寻常的速度发展,其中P2P对等网凭借其更加灵活,负载均衡和信息资源获取更加直接便利的特点相对于传统的C/S模式网络发展要更快,
层次移动IPv6 (Hierachical Mobile IPv6, HMIPv6)是在MIPv6(移动IPv6)的基础上针对MN(移动结点)在小范围内快速移动所作出的一种改进技术。HMIPv6针对MIPv6将全局性的大范围
计算机网络近些年来得到迅猛发展,网络上的信息量也是逐年递增。随着信息量的扩大,网络上的安全问题也越来越严重,如木马,病毒,网络攻击等恶意行为时常发生,还有些人利用网络