【摘 要】
:
现今世界上许多信息系统产生了大量的原始数据,这些原始数据往往是具有高度不平衡、高维度、大规模以及属性值各异等特性的高不确定数据。近些年来,通过可靠的机器学习技术来
论文部分内容阅读
现今世界上许多信息系统产生了大量的原始数据,这些原始数据往往是具有高度不平衡、高维度、大规模以及属性值各异等特性的高不确定数据。近些年来,通过可靠的机器学习技术来进行大数据挖掘变得尤为普遍。使用一般的机器学习方法来挖掘此类高不确定数据,很难达到令人满意是效果。因此,为了挖掘出高不确定数据中更多隐藏的、有用的信息,开发出高性能的机器学习方法来处理各种高不确定数据是很有必要的。本文提出了一种混合支持向量机模型来挖掘此类高不确定数据,其结构包括预处理、建立模型和参数优化三部分。数据预处理包括归一化和数据重采样,旨在根据先验知识使数据平滑。本文在重采样基础上,通过选择重复采样的次数,使得样本更加平滑,进一步提高分类器的性能。建立的算法模型为支持向量机(SupportVectorMachine,SVM)模型,它是一种基于结构风险最小化原则的方法,能够很好地处理高维数据,并且具有良好的泛化能力,但是只适合小样本数据,因此本文提出一种针对SVM的处理大规模数据的方法,以提高混合模型对大规模数据的处理能力。本文采用遗传算法(Genetic Algorithm,GA)、最基本粒子群优化法(Particle Swarm Optimization,PSO)和网格搜索算法(Grid Search,GS)三种优化方法来优化模型的参数以提升混合模型的性能。全文通过数据预处理、建立模型和参数优化三个阶段选择不同的方法或算法,形成多种混合支持向量机模型,并在所有的混合模型型中经过一定的策略选出最优混合支持向量机模型,该模型能够很好的处理高不确定数据。最后将其应用于医疗数据库中的ECG数据集,并与其它方法对比,验证其优越性。
其他文献
目的设计一套数字化脉冲波超声多普勒系统,以实现多深度血流频谱分析和显示。方法首先开发了一块PCI接口的数据采集卡,用于采集正交模拟解调后的超声回波信号,然后在PC平台上
以京津冀空气质量下降为出发点,概要分析影响空气质量的首要污染物PM2.5浓度提升的自然因素和人为原因,具体分析河北省以钢铁产业为主导的产业结构对京津冀地区空气质量的影
一款产品、一种思想,如何引爆一场流行,马尔科姆·格拉德维尔给出了三个方面的因素:个别人物法则、附着力因素法则和环境威力法则。内涵思想可以概括为一款产品或一种思想的
对外贸易的高速增长已成为我国经济发展的重要推动力,国际贸易的快速发展必将带动国际物流的发展。本文在介绍国际物流内涵的基础上,分析我国国际物流发展现状中存在的问题,
电子商务下的图书营销渠道宽广了许多,为图书销售提供了良好的销售与沟通平台,形成社会规模营销。但是我们应当清醒地认识到,图书消费市场正在不断萎缩,新媒体信息技术严重冲
本论文主要包括一下三个部分:第一章有机手性离子对和其它类型的有机催化剂不同,通过空间作用来提高和改善反应的立体选择性。大多数有机反应都是通过带电的中间体或者过渡态,
通用串行总线(Universal Serial Bus,USB)自问世以来凭借其价格低廉、使用简单、协议灵活、接口标准化和易于端口扩展等优点,迅速占领了计算机外设接口领域的统治地位,而且随
以CaO为载体,采用浸渍法制备了一系列CaO负载氢氧化物固体碱,考察负载型固体碱在催化甲醇-油脂-碳酸二甲酯三组分耦合反应体系制备生物柴油中的反应性能。实验结果发现KOH/Ca
通过CFD工具对滚动转子压缩机在消音腔优化、壳体内部流动、供油分析和润滑油加注量等方而进行了二三维数值模拟,并通过实验验证了CFD的模拟结果。结果表明:在滚动转予压缩机设
电影自诞生之日起,按线性逻辑组织叙事一直是主流的叙事策略。影片往往在一个“起因”发生后,“结果”接踵而来,然后这个“结果”又成为下一个“结果”的“起因”,故事就这样一直循环往复下去,最后影片就是把这个过程以时间先后的方式依次展示出来。但是,作为一种相对自由的时间和空间的现代艺术,电影不会永远安分地据守于“线性时空”这一方天地中,所以非线性叙事电影便应运而生。在习惯线性叙事的思维逻辑后,人们很难理解