面向失衡数据集的数据缺失问题研究

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:gzqeedaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
失衡数据集是数据挖掘领域中广泛存在数据状态,由于不同类别的数据样本数量差异悬殊而使得正常的分类算法效果不明显。在数据挖掘领域中还有一个不可避免的问题就是数据缺失,即数据集在收集或者保存时由于环境等因素而产生的数据值缺失或者属性缺失,造成的结果可能是丢失数据信息所要表达的知识。数据集的失衡和缺失给数据分析以及知识发现带来了困难,因此对此类数据集的研究已经受到了越来越多的关注。随着计算机技术突飞猛进的发展,基于数据挖掘与机器学习的分类问题成为企业及组织快速决策、准确判断和有效辅助的方法,而数据缺失的失衡数据集普遍的存在于计算机科学、生物信息学、经济学等可利用的领域中,对于失衡问题人们常常关心的是少数类的情况,对于数据缺失则常常关心的是缺失的有用信息,因而对这类数据集的解决就特别的重要。本文先描述了失衡数据集以及数据缺失的问题,总结了国内外专家对此类数据集的成果,论述了数据缺失的失衡数据集对分类的影响、常用的处理办法以及分类器的性能评价标准,详细地介绍了数据值缺失和属性缺失。在最大限度的利用数据集中已存在数据的基础上,提出了采用基于密度聚类与灰色管理分析技术相结合的数据值填补策略,同时运用迁移学习的方法对数据集中属性缺失进行解决,利用谱特征排列算法对属性进行增强,并结合利用密度聚类的簇边界采样,处理数据集中样本不平衡,将支持向量机作为分类模型,对经过上述步骤的数据集分类。最后,将数据缺失的失衡数据集处理问题应用到基于数据挖掘的辅助医疗诊断中,并且利用真实的医学数据验证了本文提出的方法可以获得较好的分类效果,为医生的诊断提供协助的作用。
其他文献
从1972年发现NP-完全性以来,很多学者就对NP-难的优化问题能否有快速算法来计算其近似解感兴趣,然而对大部分这类问题,寻求有效的近似算法都令人失望。于是尝试来证明求其近似解
网格技术是一种新兴的基于Internet的应用技术,网格技术的出现使互联网上所有资源的全面连通成为可能。但是,网格系统的异构性、动态性、多域性等特点使得网格安全问题比普通
无线传感器网络在世界各个领域都有着相当巨大的应用价值,它已经引起了世界各国在工业、农业、军事、环境、医疗等传统领域以及家用、保健、交通等许多新兴领域方面的极大应用
学位
近几十年来,数字图像,视频的处理技术一直受到广泛关注。不仅是专业的影视、动漫企业,更多的非专业用户希望对自己拍摄的媒体素材进行编辑处理工作。图像,视频的分割技术在素
随着信息技术的发展,图像处理技术已经成为科学研究的有力工具。在医学图像处理领域,应用分析处理系统对减轻医生的阅片劳动强度和提高诊断精度具有重要的意义,而图像分割是图像
随着信息时代的到来,人们对数据交互和通信的需求越来越大。大多数的数据和信息可以通过传统的路由-交换互联网有效传输,但在一些网络设备难以架设的偏远山区以及在河流湖泊
数据挖掘技术通过对数据库中的数据进行挖掘,可以得到很多重要的知识,包括分类知识、聚类模式、关联规则以及序列模式等等。其中关联规则是通过分析数据库中频繁出现的数据之
聚类和分类是数据挖掘中的基本任务。长期以来,关于聚类技术在分类中的研究主要集中在应用聚类对训练数据进行数据预处理,期望通过减少噪音数据的影响提高最终的分类精度,因此,如
在游戏项目开发中,游戏工具的开发始终占据重要的位置。软件工程技术的进步使得越来越多的工程开发理念被应用到游戏领域。无论是游戏设计理念、项目开发流程,都使得开发效率
信息技术的迅速发展使数据库面临的安全问题更加复杂和多样,数据库作为信息系统重要数据的存储和处理核心,往往成为最吸引攻击者的目标。访问控制技术是数据库安全领域的一个
学位