基于样本熵和预聚类的样例选择算法

来源 :河北大学 | 被引量 : 0次 | 上传用户:mochi7momo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征选择是模式分类的重要环节,它能将对分类冗余的属性从数据集中去掉。特征选择可以降低分类算法的计算复杂度,提高分类精度。类似地,数据集中也存在对分类冗余或不重要的样例,它们对分类没什么贡献。样例选择是近年来机器学习领域研究的热点问题,吸引着许多研究者的兴趣。样例选择能够去除原数据集中的冗余信息,选出数据集中重要的、尽量少的样例作为训练集训练分类器,并保证原数据信息不丢失,且提高分类器的精度和泛化能力,降低时间复杂度和空间复杂度。本文研究了针对Fuzzy KNN的压缩近邻规则,提出了基于样本熵的不确定环境下的样例选择算法。本文还研究了基于预聚类的样例选择问题,提出了基于预聚类的两阶段样例选择算法。同时对这两种样例选择方法在人工数据集和UCI数据集上进行了实验研究,实验结果显示本文提出的算法行之有效的。
其他文献
社会的文明程度和人本身息息相关,从社会心理学角度上来说,人们越来越关注自身和自身所处的环境,这势必会促使人们探索一种观察模式来反映自身及周围的情况。人体运动分析与识别
无线传感器网络采用多跳无线通信,并且节点通过自组织构成网络,以协作的方式处理网络中的信息。在无线传感器网络中,虫洞攻击能够对正确的路由进行破坏。虫洞是一种由两个远距离
蛋白质作为生命活动的体现者并非孤立存在,而是通过相互的交互作用完成细胞中的大部分过程。蛋白质交互(Protein-Protein Interaction,PPI)网络的建立一直是研究生物过程关注的核
最优化问题广泛存在于科学研究、经济管理等领域,优化问题存在的普遍性促使优化技术和优化算法不断进步。随着工业技术和科学研究的快速发展,现实的优化问题也变得越来越复杂,研
随着我国社会经济领域信息化水平的不断提高,信息的收集处理已经成为影响决策的重要因素,信息系统和数据挖掘工具已广泛应用于提高科学决策水平,但在我国金融市场中投资者还没有
并行计算拥有有强大的数值计算和处理数据的能力,在现实生活中有着广泛的应用,如地震的预测和预报、石油的勘探、气候的模拟、武器方面的设计、核武器系统的研究与模拟、航空
在数据安全日益重要的今天,如何构建完善的数据保护系统已经成为信息科学领域最重要的研究课题之一。对数据保护系统而言,备份的数据越新,就能把应用系统恢复到越近的时间点,从而
基于单视觉(单摄像头)的多目标跟踪是计算机视觉和视频处理研究领域的一项基础研究并且正变得越来越重要。如果将目标特定为行人,那么单视觉多目标跟踪问题就转化为单视觉行人跟
随着物质生活水平的提高,旅游已经成为人们放松和休闲的一项活动。但目前很多景区的基础设施不够完善、导游的素质不高等一系列问题依然存在。这些问题导致了近些年景区之中