大规模不均衡数据分类方法研究

被引量 : 0次 | 上传用户:luo000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会信息化的发展,人类获取或存储数据的方式变的更加廉价与便捷,生活中大规模不均衡数据集不断涌现,面对这些形色各异的大规模不均衡数据,如何快速、准确而全面地从中找出所需要的有用信息,已经成为当前信息技术与商业领域面临的一大挑战。数据挖掘(Data Mining)作为一项高级的数据分析处理技术,在医疗、保险、通讯、金融等行业都得到了广泛的应用。作为数据挖掘技术中的关键技术之一,分类在学术界一直广受关注,先后涌现出了诸多的分类算法,这些算法在某种程度上确实是有效的,然而随着数据形式的不断变化,其缺陷也日益凸显。从传统的静态数据集到当前的动态数据流,其规模不断增大,不均衡度也不断提高,这些新数据特性对于传统的数据分类算法而言,无疑都是一个巨大的挑战。如何设计出一个适用于数据新特性的有效分类模型,依然是当前研究者所致力解决的焦点问题。本文针对数据的大规模性与不均衡性特点对数据分类问题展开研究,提出了两种数据分类模型,具体内容如下:(1)针对大规模数据集,利用约简训练集思想设计出一种基于分层聚类重采样的大规模数据分类模型。该模型首先利用K-means聚类算法将数据集划分成不同的独立子集,然后对各个子集进行逐类聚类,找出类中心邻域内的样本点集,将其加入到最终训练集中,最后利用支持向量机(Support Vector Machine, SVM)对最终训练集进行训练建模。实验结果表明,该模型在大幅降低SVM学习代价的同时,能够很好的保证其分类精度,并加快训练速度。(2)针对数据集的类不均衡性,提出了一种基于卡方检验的尺度核支持向量机分类模型。该模型首先利用SVM获取一个近似超平面,得出各样本到该近似超平面的距离与数据集的一个初始划分,然后基于核变换修正类分布的思想,提出了一种结合保形变换与卡方检验的新核变换方法,采用该方法对类边界进行不断的修正,扩大类边界间的不对称空间,最后再次利用SVM建立起最终的分类模型。实验结果表明,该方法能够很好的补偿数据偏斜,具有较高的分类精度。
其他文献
登陆战役是诸多兵种联合作战的立体战役,其中登陆作战后勤保障系统是取得战争主动权的重要因素.主要介绍了历史上特别是第二次世界大战以来的登陆战役的后勤补给的主要方式,
伴随着自动化计算机技术的飞速发展,人们对冲压自动生产线仿真监控系统的功能要求也越来越高,比如友好的人机交换界面、系统运行的安全稳定性、数据读取的保密性和实时性等。
县域经济在国民经济中占有重要的基础性地位,不仅是国家和省级经济的重要组成部分,也是推动地区经济增长的主要动力。发展好县域经济,是统筹城乡区域经济社会发展,建设现代化
<正> 一、初步认识地理信息系统是最近十五年发展起来的。简称 GIS(Geographic Information Sy-stem,Geobased Information System,或 Geo-referenced Information System,Ge
石油和天然气资源是关系国家经济安全的重要战略能源,在油气需求增长迅猛而陆地油气产量增长乏力的背景下,海洋油气开发成为保障油气资源供给的重要途径。海洋油气项目,特别是深
城镇化是指在工业进行产业升级的过程中,从事农业生产的人口向城镇迁移及农村劳动力由传统农业生产转为第二产业及第三产业的过程,它是一个国家实现现代化的重要标志之一。广
近年来对外汉语写作教学得到的关注越来越多,写作教学方面的理论和实践研究也呈现出日渐繁荣的景象,但仍落后于其他语言技能的研究。目前的写作教学现状也不容乐观,在教材、
关于当代艺术家村上隆有很多争议,但是伴随着各种争议他却在巴黎卢浮宫做了个展,他的公仔也卖出了天价,他的“超扁平”“幼稚力宣言”等概念也被人们所熟知,就连品牌路易威登
新型农村合作医疗制度自2004年在扬州市广陵区开始实施至今,新农合制度框架和运行机制的日趋完善,农民“看病难、看病贵”状况有所减轻,因病致贫、因病返贫问题得到缓解。然
目的总结3例先天性脊柱畸形伴呼吸衰竭患者的诊治情况,提高该类患者的临床诊治水平。方法回顾性分析3例先天性脊柱畸形患者,在肺部感染后出现严重的Ⅱ型呼吸衰竭,均给予积极