最近邻分类器样本预处理技术新方法的研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:cxx163252
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
最近邻分类器作为模式分类领域一种简单而有效的分类方法,有着广泛的应用。但是在实际问题中,特别是在不同类别的分布空间有重叠的情况下,其分类性能会有较明显的下降。针对这个问题,本文引入了自然界中的引力塌缩现象,并根据这种现象,针对模式分类问题在特征空间中进行了模拟,建立了模拟引力塌缩模型。通过在样本上模拟引力塌缩现象,从而达到样本分布范围适当压缩的效果,并通过对样本分布范围适当的压缩,达到减少不同类别分布之间的重叠区域的样本,从而提高最近邻分类器的分类正确率的目的。 根据模拟引力塌缩模型,本文提出了一种新的最近邻分类器样本预处理算法——模拟引力塌缩算法(SGC),并针对该方法的性质和作用进行理论的分析。经在两个人工数据集和八个标准真实问题数据集上的实验,SGC算法在所有数据集上都提升了最近邻分类器的分类准确率。在绝大多数数据集上,基于SGC算法的最近邻分类器甚至超越了k近邻分类器,均取得了最高的分类准确率。 本文将SGC算法应用于基于基因芯片的肿瘤预测问题。通过建立基于SC,C算法的最近邻分类器建立的预测模型,并将其应用于急性白血病的肿瘤亚型预测,卵巢癌的阳性预测以及胚胎性中枢神经肿瘤的预后预测三个问题。实验结果表明,对比标准最近邻分类器和k近邻分类器,基于SGC算法的最近邻分类器建立的预测模型在这三个问题上都取得了良好的应用效果,并大大提高了预测的准确率。
其他文献
随着互联网络技术和微电子技术的不断发展,传统的处理器已经不能满足日益增长的网络应用和服务的需求。因此,一种专为处理网络应用和服务而设计的高性能网络处理器应运而生。
本论文针对传统的软件缺陷管理不足,采用在优化其现有流程的基础上对整个缺陷管理过程进行度量的方法,突破旧的模式,使缺陷管理在项目管理中发挥更大的作用。在CMM日益受欢迎
将Internet应用到各种嵌入式系统中,通过Internet实现对设备的监控,已成为Internet和嵌入式系统发展的新趋势。嵌入式Web服务器(Embedded Web Server,EWS)造价低,方便灵活,易于扩
随着互联网(Internet)的普及以及数据库管理技术的发展,一方面大量互联网上的节点需要相互共享数据或共享服务。另一方面,网络带宽的成倍增加以及计算机计算能力的大大提高,对等
随着计算机、网络和数字化技术的发展和普及,网上多媒体数据量急剧增加,计算机自动处理、分析、挖掘、检索网上海量多媒体数据(特别是视频数据)已经成为信息社会的迫切需求,视频
作为下一代互联网信息存储的核心技术,基于对象的存储系统结合了SAN(Storage Area Network)基于块存储和NAS(Network Attached Storage)基于文件存储的优势,提供了功能更加丰
近年来,自动指纹识别技术已成为学术界的一个研究热点,已有不少国内外学者对指纹识别技术作了大量研究,但到目前为止,指纹识别仍存在一些技术难点。指纹图像与背景区域的有效分割
当前互联网安全事件频繁爆发,互联网环境安全态势日趋恶化。研究人员希望得到网络安全事件真实数据进行研究分析,以达到防御目的,改善互联网环境。得到安全事件的真实网络数据需
程序依赖性分析是软件工程领域中一项重要而基础的活动,它是对已有程序分析与理解的基础,并在程序切片、逆向工程、软件测试以及软件重构等软件工程各个领域都有着重要的意义
生物识别技术是近几年来热门研究课题之一,该技术是一门多学科交叉的技术,包括生物学、医学、计算机科学、电子学等。虹膜识别技术是其中极有潜力的生物识别技术,由于其具有