样例选择相关论文
随着数据的爆炸式增长,越来越多人开始关注大数据问题。由于大数据具有规模大、维度高、数据复杂且变化速度快的特性,导致传统的机......
随着数据库和网络技术的不断发展,使得人们可以越来越容易地获得海量的数据,但由于数据信息自身的复杂性,使如何有效地处理和理解......
样例选择是数据挖掘中一个重要的数据预处理步骤。大多数样例选择算法选择边界样例,边界样例的不确定性大,包含的有用信息更多,因此对......
大数据时代已经到来,大数据的出现使得传统的机器学习算法无法在单机环境下完成训练。分类是机器学习和数据挖掘领域中最基本的学......
在过去的几十年中,研究者们已经提出了很多种不同的敏感性定义,并把它们应用到特征选择、样例选择等各种不同的领域。本文对这些定......
在监督学习任务中,训练集通常是由随机选择的无类标样例经由专家标注得到的。而标注样例的这个过程通常代价很大,利用主动学习方法选......
在主动学习中,采用近邻熵(Neighborhood Entropy)作为样例的挑选标准,熵值最大的样例体现基于近邻分类规则,最无法确定该样例的类......
提出一种概率神经网络样例选择算法,它包括两个阶段,第一个阶段利用概率神经网络计算样例的不确定性,第二个阶段利用计算出的不确......
压缩近邻(CNN:Condensed Nearest Neighbors)是Hart针对K-近邻(K-NN:K-Nearest Neighbors)提出的样例选择算法,目的是为了降低K-NN......
提出了一种基于概率神经网络和K-L散度的样例选择算法。该算法利用概率神经网络估计训练样例的概率分布,利用K-L散度作为启发式来......
近邻(Nearest Neighbor,NN)算法是一种简单实用的监督分类算法。但NN算法在分类未知类标的样例时,需要存储整个训练集,还要计算该样......
支持向量机(support vector machine,SVM)仅利用靠近分类边界的支持向量构造最优分类超平面,但求解SVM需要整个训练集,当训练集的规模较......
在我们以前的工作中,提出了基于MapReduce的大数据主动学习算法。在本文中,将这一算法移植到Spark环境,提出了基于Spark的大数据主......
针对大数据样例选择问题,提出了一种基于随机森林(RF)和投票机制的大数据样例选择算法。首先,将大数据集划分成两个子集,要求第一......
近年来,肠道微生物成为医学和生命科学的研究热点,研究表明人类的健康状况甚至是大脑情绪与肠道微生物息息相关。肠道微生物种类的......
近几年,大数据是一个非常热门的研究课题。面对大数据环境,传统的机器学习算法遇到了巨大的困难和挑战,如何解决这一问题,将传统的......
提出了一种改进的样例约简支持向量机,该方法利用相容粗糙集方法求属性约简的边界域,并从中选择样例作为候选支持向量训练支持向量机......
传统的机器学习方法应用于均衡数据能够取得较好的学习效果,但是处理非均衡数据时,基于误差最小化原理的学习机制往往导致结果偏向......
针对传统样例选择方法压缩大数据集时,存在计算复杂度较高、时间消耗较大的问题,文中提出基于非平稳割点的样例选择方法。依据在区间......
压缩模糊K-近邻(CFKNN)算法仅适用于中小数据环境,且其样例选择采用静态机制,导致算法不能对阈值进行动态调整从而选出最优样例。......
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清......
推荐系统是一种解决信息过载的新型技术,为了解决推荐系统中新用户带来的冷启动问题,提出一种基于主动学习的推荐系统。主动学习方......
期刊
主动学习算法通过选择信息含量大的未标记样例交由专家进行标记,多次循环使分类器的正确率逐步提高,进而在标记总代价最小的情况下......
随着社会的快速发展和科学技术的进步,每天都会产生大量的数据,这些数据大部分是无类标的数据,例如网页数据、音频数据、视频数据......
近年来,主动学习成为机器学习领域的研究热点.这一技术通过主动选择要学习的样例从而有效地降低学习算法的样本复杂度.介绍当前主......
模糊粗糙集由于能够处理实数值数据,甚至是混合值数据中的不确定性受到人们的广泛关注,其最重要的应用之一是特征选择,相关的特征......
径向基函数极限学习机(RBF-ELM:Radial Basis Function-Extreme Learning Machine)是极限学习机(ELM)的变体,它是针对径向基函数网......