【摘 要】
:
很多数据集中含有冗余数据、噪声数据,以及不完备数据。这些数据不仅占据了很大的存储空间,而且对学习器完全无用甚至有害。因此,我们希望能够从一个数据集中选取少量有用的
论文部分内容阅读
很多数据集中含有冗余数据、噪声数据,以及不完备数据。这些数据不仅占据了很大的存储空间,而且对学习器完全无用甚至有害。因此,我们希望能够从一个数据集中选取少量有用的数据使之压缩成一个比较小的数据集,目的是在不降低学习器性能的前提下,减少存储空间。这就是样例选择所处理的问题。根据处理的对象不同,样例选择大致可以分成两大类:数据过滤算法和主动学习算法。数据过滤算法主要用于去除冗余数据和噪声数据,而主动学习算法主要用于处理不完备数据,即如何从无类标的数据中选择有价值的数据,这也是本课题处理的重点问题。本论文研究了基于模糊决策树的最大不确定性样例选择策略,并对该策略进行了改进。基于不确定性最大的样例选择策略倾向于选取孤立点和异常点,而忽略分布密集区域的样例,因此文章引入了样例影响度作为样例选择的一个指标。通过选取影响度较大的样例,即位于样例分布密集区域的样例来尽量避免孤立点的选择。随后文章提出了新的样例选择标准:选择影响度和不确定性乘积最大的样例。通过对这种样例的选择与学习,既可以弥补学习器的薄弱知识,即对不确定性较大样例的分类知识,又可以避免学习特殊的模式,即由一些孤立点引导的分类模式。经理论证明,采用该选择标准选择的样例能最大限度地降低样例池的不确定性。最后,通过在人工数据集和UCI数据集上的实验结果显示,由改进后算法选择的样例比原算法选择的样例所训练的决策树的测试精度高。
其他文献
随着计算机网络的快速发展和普及,网络安全问题也变得越来越严峻。入侵检测系统作为一种主动的网络安全保障措施,它通过收集计算机网络中若干关键节点的信息并对其进行检测分
支持向量机(SVM)技术是由V.Vapnik于20世纪90年代中期提出的一种能处理非线性分类、回归等机器学习问题的新模型。近几十年其理论研究快速成熟,实际应用也被越来越多的领域重
步态识别是根据人的步态特征对人的身份进行识别的技术。步态作为一种新的行为特征,具有远距离、非接触性、非侵犯性、易感知性、难以伪装或隐藏等特点,并且是低分辨率情况下
主动服务是在Web服务的基础上发展而来的一种按需计算的新型计算模式。它为普通用户提供一种综合化、智能化、个性化的网络服务解决方案。根据用户的服务需求,从Internet或本
主动轮廓模型在计算机视觉、目标运动跟踪、医学图像识别等领域已成为一项研究热点,不同于Marr分层视觉理论,它是一种充分利用高层信息的图像处理过程,能够将图像分割、目标检测以及先验知识信息统一在一个框架中讨论的模型。高分辨率遥感图相比于普通图像,包含的信息量更大,强度不均匀,背景更复杂。利用传统的主动轮廓模型来解决遥感图像目标提取,容易产生目标边缘丢失、陷入局部最优等问题,因此有必要进行研究,通过改
随着网络技术的迅速发展以及先进软件平台J2EE的广泛采用,基于MVC开发模式的多层Web应用已成为主流,而相应的SSH(struts+spring+hibernate)框架也引起了学术领域和应用开发领
OpenSSL作为当前业界应用最为广泛的一套SSL协议开源实现,其高强度密码算法在SSL协议中的应用一直以来受到美国政府的严格限制。随着计算机技术的快速发展,基于常规密码算法
移动机器人是一种具有高度自规划、自组织、自适应能力,适合于在复杂的非结构化环境中工作的机器人。路径规划和安全导航技术是自主式机器人的研究核心,同时也是移动机器人实
随着计算机系统在宇航、气象、救灾、军事等各个关键领域的广泛应用,其可靠性和可信性日趋重要,一旦硬件系统发生故障,可能带来巨大经济损失,甚至影响人身安全和国防安全。同
Internet是一个高度开放、异构和分布式的信息空间,海量的信息杂乱地散布在全球各个站点上,而且每天都以极快的速度更新。随着互联网技术的发展和网络应用的日益广泛,Interne