基于二分K均值和SVM决策树的数据挖掘算法研究

被引量 : 0次 | 上传用户:Liudeyuan123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
利用计算机技术对数据进行采集和处理是IT技术一个极为重要的应用。在数据采集过程中会遇到很多高维的数据信息,信息中包含着大量特征。这些高维数据造成了数据挖掘过程中的“维灾难”问题。因此,分析和研究对高维数据集进行有效信息挖掘的算法显得十分重要。针对高维数据挖掘的需要,本文先简单地讨论了高维数据分类和现有数据挖掘算法的研究热点、研究现状及相关理论和方法,在这基础上开展了进一步研究。研究工作主要有:(1)讨论了现有数据挖掘算法在高维数据集上进行数据挖掘的不足及自适应维归约算法的重要性。首先,给出了高维数据分类存在的问题和研究热点并具体说明了降维在高维数据挖掘过程中的重要性。其次,介绍了现有支持向量机(SVM)分类算法和K均值相关算法在高维数据集应用上的不足,为后续算法的改进打下了较好的基础。(2)设计了一种针对高维数据集的有效的多分类二阶段数据挖掘方法。该方法首先利用二分K均值算法对高维数据集进行粗聚类,然后再利用SVM决策树算法对粗聚类之后的结果进行细分,即可实现对高维数据进行多分类的目的。该方法既有效地减少了高维数据在进行多分类时的训练时间,而且实验结果证明该方法比单纯使用K均值聚类算法或SVM算法的分类准确率有所提高并且也降低了时间复杂度。(3)对现有的知识发现过程进行有效分析,将数据预处理与数据挖掘实现内部循环,从而得到较优的挖掘结果。本文利用支持向量机决策树算法(SVMDT)来实现数据挖掘预处理步骤中的数据降维。针对高维数据集的多分类问题,提出了一种结合二分K均值聚类和SVMDT算法的自适应分类方法(BKM-SVMDT方法)。在BKM-SVMDT方法中,首先利用PCA将原始数据集从高维空间变换到低维空间上,然后在得到的低维空间上执行二分K均值算法来得到样本的类信息,再利用高低维之间的指示矩阵H生成高维数据的类信息,指导SVMDT算法进行分类,再得到低维数据集和新的指示矩阵H,从而可在得到的新的低维数据空间上进行二分K均值聚类算法,这个过程反复执行下去,直到达到相应收敛结果。该方法既较好地避免了维灾难问题,又能自适应地得到某种形式的收敛结果。与NLSVM算法和SVM决策树算法的对比实验也证明了BKM-SVMDT方法的有效性。
其他文献
目前我国的软件外包项目大多为低端外包出口,中高端的项目很少,以做数据录入、编码测试等工作为主,不利于软件产业的长期发展和做大做强。本文从软件外包服务的市场格局、软
目的:通过对口服中药汤剂柏子仁丸加泽兰汤治疗肾虚型月经过少进行临床观察,验证其临床疗效及安全性。方法:选择2011年2月至2012年2月就诊于长春中医药大学附属医院妇科门诊的患
在宋明理学发展过程中,杨时传承二程洛学,开启朱熹闽学,他所创立的“道南学派”对后学影响甚为深远。在学术界,“道南学派”的重要代表人物杨时并不为人们熟识,而在近几年福
彝人古镇是一个集商业地产为一体的人造旅游景区,从2006年投入使用后,经过汇通公司的运作,旅游人数逐年快速攀升,成为了楚雄州旅游和展示民族文化的重要景点。它的开发建设,
竞争情报工作是企业在激烈的经济竞争中谋求发展的重要手段之一。作为一种社会行为,在竞争情报工作中必然会涉及各种复杂的社会关系,而法律作为一种由国家强制力保证实施的调
近年来国内部分城市开始探索糖尿病“社区-医院一体化管理”模式,具体内容尚未达成共识。通过对崔各庄社区卫生服务中心所开展的糖尿病“社区-医院一体化管理”工作细节和经
<正>一、埃姆歇地区概况和发展历史鲁尔区是德国最大的工业中心,人口大约540万,面积4432平方公里。历史上鲁尔区是以采煤、钢铁、化学、机械制造等重工业为核心的传统老工业
随着经济实力和综合国力的增强,新兴市场国家的国际地位和影响也在不断上升。这已成为一种趋势。二十国集团的形成,金砖国家的诞生,正是这一趋势的体现。新兴市场国家在国际货币
报纸
唐都长安是国际化大都市。由于人口众多,对商品的需求量很大,故商业成为长安经济生活的重要内容。本文拟在前人研究的基础上,系统探讨唐都长安的商业管理问题,通过对长安城市
随着中国金融市场的深化和资产市场在国民经济中作用的不断增强,资产价格与宏观经济的关系将变得越来越重要,资产价格波动对货币政策的制定和实施也将产生越来越大的影响。因