【摘 要】
:
在科技日新月异的大数据时代,我们所面对的数据集越来越庞大。在海量数据中,往往含有大量的不相干信息和冗余信息,使得现有机器学习算法面临着严峻的挑战。如何在保持数据信
论文部分内容阅读
在科技日新月异的大数据时代,我们所面对的数据集越来越庞大。在海量数据中,往往含有大量的不相干信息和冗余信息,使得现有机器学习算法面临着严峻的挑战。如何在保持数据信息足够完整的前提下,从中提取出有效而又合理的特征数据,满足存储需求和提高信息处理效率,是亟需解决的问题。因此特征选择问题一直是模式识别领域的研究热点之一。基于边界最大化的特征选择方法是一种有效的特征选择方法,它能够显著去除高维数据中的不相干特征,在机器学习中有着重要的应用,但该方法存在着计算复杂度较大的问题。以计算高效性著称的基于局部学习的特征选择算法的计算复杂度仍与输入对数维度呈对数复杂度。为了克服这一问题,本文在其基础上,提出了基于类心和特征加权的特征选择算法。其基本思想是以某一类的类心为中心,寻找其同类和异类最近邻构成边界,根据某种准则获得一个特征空间的权重,使得权重特征空间中的边界最大。本文的算法具有很好的处理效率,可以在两秒内处理5000维特征。通过对该特征选择算法选择出的特征进行SVM分类来验证其性能。在4个UCI数据库上的实验验证了所提算法不仅有更高的效率而且有更好的分类准确度,并且对于不相干特征几乎是不敏感的。
其他文献
随着第三代移动通信系统技术的兴起,WCDMA以其先进的技术特点和丰富多彩的业务类型吸引了广大用户的关注,运营商也积极准备WCDMA网络兴建工作。对网络运营商来说,如何经济有效地
本文对任意相关信道下采用天线选择的MIMO系统性能进行了分析。 首先,讨论移动通信信号的传输环境、多径效应对信号传输包络的影响,无线衰落信道的模型。接着,研究了一种能产
位置信息服务在人们的日常生活与工作学习中扮演着重要的角色。随着信息技术的发展,人类对位置信息服务的需求也达到了一个前所未有的高度。位置信息服务提供导航与定位功能,
同源搜索在基因功能预测、蛋白质结构预测和物种亲缘关系判断中具有重要的意义,在同源搜索比对程序中使用间隔种子有利于准确高效地找到生物序列间的同源比对。本文主要研究同
在光层实现业务交换已成为下一代光网络的发展趋势。光电路交换(Optical Circuit Switching,简称OCS)、光分组交换(Optical Packet Switching,简称OPS)和光突发交换(Optical
测量技术在某种程度上推动着所有科学和技术的发展。长度作为7个基础物理量之一,它是所有几何量测量中不可或缺的部分。传统的绝对距离测量技术主要针对飞行时间信息或相位变
本文着力于AdHoc网络与蜂窝网络融合接入Internet的问题。首先介绍了移动AdHoc网络和蜂窝网络各自的特点,以及国内外对于融合网络的相关研究。接着探讨蜂窝AdHoc融合网络接入I
主动声纳主要用于探测和通信两方面,信号类型有单频信号,线性调频信号和扩频信号等。其中,扩展频谱通信具有抗噪声、抗干扰、低功率谱密度下工作、保密性等许多优点,已在水下通信