基于不同优化策略的两阶段预测填补方法及应用研究

来源 :兰州大学 | 被引量 : 0次 | 上传用户:chinafeed
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于受到各种致缺因素的影响,缺失数据问题在当前各个学科领域已经成为了一个普遍现象。缺失数据的存在不仅会使数据集失去很多有价值的信息,而且会增加统计分析工作的复杂度和降低数据挖掘工作的效率,导致分析结果和决策存在一定的偏差。由于不完整数据集给数据分析和挖掘工作带来了极大的困难和阻碍,所以缺失数据处理方法的探索和研究对数据分析工作具有重要意义。本文从数据样本的特点出发,通过对灰狼优化算法(GWO)、粒子群优化算法(PSO)、集成学习算法、支持向量机(SVM)和支持向量回归(SVR)的有效组合,提出了一种基于不同优化策略的两阶段预测填补方法来处理人群空腹血糖数据集中的缺失值。该方法主要是基于医学研究中缺失数据所在的变量指标是医疗诊断某种疾病重要的参考指标,通过医疗诊断标准切点作为该指标的分类依据,从而探索更有效的缺失值填补方法。在人群筛查中,空腹血糖出现不同程度的缺失,影响了指标的分析和利用,但人群的空腹血糖是糖尿病患者重要筛选指标之一,此时可以根据空腹血糖的医学诊断标准切点值,将缺失样本分成两类,空腹血糖正常和异常。在此基础上提出两阶段预测填补的缺失值处理方法,再结合不同阶段的智能优化方法(或称为不同优化策略)获得更精准的缺失数据的填补值。该方法在第一阶段对样本类别进行预测,然后基于第一阶段样本的预测类别再在第二阶段使用对应的数值预测模型对空腹血糖的具体数值进行预测填补。本研究在第一阶段中类别预测模型采用SVM,第二阶段数值预测模型采用SVR,两个阶段在预测中分别采用GWO和PSO进行参数优化。基于不同优化策略的两阶段预测填补方法的具体步骤如下:首先对原始数据集进行归一化和特征选择操作,然后在模型构建过程中确定模型的优化参数和每一阶段的优化策略从而形成本文的填补方法,最后在构造的不同缺失程度的填补集上进行缺失值估计。除了本文方法GWO-SVM-PSO-SVR,还选取了另外3种两阶段预测填补方法(GWOSVM-SVR、SVM-PSO-SVR、SVM-SVR)和8种常见的单步预测填补方法(PSOSVR、GWO-SVR、SVR、KNN、RF、MEAN、MI、REGRESSION)作为对比方法对缺失值进行了估计。根据对比结果发现本文方法的MAE和MAPE指标值相比其他方法在5%到50%六种不同缺失程度下均是最小的,表明本文方法在缺失值的估计中填补精度最高,填补效果优于其他方法。除此之外,根据两阶段填补方法之间的对比结果可以看出本文在每一阶段中采取的优化策略是有效的,同时本文方法与单步预测填补方法的对比结果也可以证实本文根据目标变量的诊断切点值在第一阶段中对样本进行类别定义来控制最终缺失值的预测范围的想法具有一定的应用价值。最后进一步探究了填补数据集样本量的变化对本文方法填补性能的影响,结果表明随着样本量的变化,本文方法的填补精度相对稳定。
其他文献
随着信息科学技术的快速发展,商业银行之间的竞争变得越来越激烈。一方面,在信息公开透明的互联网时代,消费者可以快速获取金融产品和服务信息并以此为基础优化购买策略,从而可能导致某银行以往的部分客户流向其他银行。另一方面,消费者的个性化需求也可能会导致银行客户流失现象的发生。为了尽可能的减少客户流失,可以利用银行过往客户的信息进行预测分析,使得银行管理者在后续工作中能有针对性的完善客户服务。本文运用数据
学位
皮肤镜图像中,由于毛发造成的遮挡,严重影响了皮肤病变的诊断操作和分析准确性。真皮毛发有以下不同的特点:细薄;重叠;浅色调;形状各异,长短不一;与底层皮肤或病变纹理有相似的对比度或颜色;以及遮盖或覆盖病变的纹理。毛发的这些复杂特征使得毛发数字去除(DHR)成为一项极具挑战性的任务,该任务涉及到毛发的分割和毛发间隙的修复。基于传统的硬编码阈值毛发去除方法泛化能力差,导致过度去除毛发,从而失去了皮肤病变
学位
测试是贯穿数字集成电路(Digital Integrated Circuit,Digital IC)整个生命周期的核心环节。可靠的测试技术有助于缩短开发周期,提高产品的良率和减少开发成本。然而,随着集成电路的制造工艺不断进步和发展,单一电路的规模越来越大,电路的内部结构也越加复杂。这给测试带来了新的挑战。基于这种情况,结合新兴技术对集成电路测试方法进行优化升级已成为行业的热点。自动测试向量生成(A
学位
髋关节发育不良是婴幼儿较为常见的骨科疾病之一,患病初期及时的诊断和治疗能够有效矫正关节畸形,避免留下终身残疾。基于X-Ray图像的骨盆正位片诊断是髋关节发育情况诊断的主要方式之一,医学解剖学相关关键点的检测是该诊断方法的关键步骤。然而,在该诊断方法中,骨关节钙化过程中的多样性和脱位畸形等因素导致关键点的检测是一项具有挑战性的任务。一般来说,X-Ray图像中的医学解剖学关键点在局部区域表现出稳定的形
学位
股票市场作为企业筹集资金、公众投资获利的重要场所,吸引了各界人士的目光,股价预测方法也喷涌而出。而股票数据是非平稳、高噪声、波动性强的序列,其数据的复杂性和不确定性使得经典统计模型在股价预测中日渐式微。随着机器学习的发展,研究发现深度学习能更好捕捉股票数据信息,所以本文从深度学习出发,基于LSTM,构建基于注意力机制的双向长短期记忆网络(AM-BiLSTM)模型来预测沪深300指数价格。针对一般模
学位
电影艺术作为一种视觉性很强的现代传媒形式,其产生与发展都离不开对媒介技术的研究和探索。当前电影艺术已进入媒介融合的新时代,随着媒介环境变化和新技术的革新,电影早已诞生出各种新的形式,如互动电影、VR电影、DV电影等。作为用数字桌面为载体进行跨媒介叙事的桌面电影,已成为电影与数字媒介融合的最佳例证。本文追溯桌面电影诞生的渊源,分析桌面电影不同于一般电影的视听语言与创作特征,并内含于当前媒介融合的环境
学位
在监控系统智能化以前,通常使用人工识别来检索监控系统中的行人目标。但是,随着安防产业在城市中的广泛普及,监控系统的重要性日益突出,监控摄像头的数量也在不断增加,人工识别的检索性能已经难以满足城市监控系统的海量数据处理,这给监控系统的检测工作带来了艰巨的挑战。除了需要大量的人力成本之外,人工识别会使目标搜索的准确度偏低,从而导致错误的人像检索或者遗漏人像的检索。因此,人工智能辅助行人重识别的研究也有
学位
臭氧污染越严重,对人群健康和植被造成的危害就越大。建立有效的臭氧预测可以为臭氧防治提供数据支持,以帮助减轻臭氧污染造成的危害。因此,本文提出基于WOAVMD分解和不同智能优化算法的SVR非线性集成方法,旨在建立性能更好的臭氧预测模型。查阅文献发现,分解集成方法被广泛地应用在大气污染预测领域。针对当前线性加和集成的不足,本文提出基于GWO-SVR和PSO-SVR的集成模型对城市臭氧的动态趋势进行预测
学位
在通信系统的领域,信道编码常用于提高通信系统的性能,其中,Turbo乘积码(TPC)是目前通信系统常用的一种前向纠错码,它兼具性能优异、码字结构灵活简单、译码复杂度低等特点,得到实际工程的采用,同时亦是国内外通信领域学者的研究热点。目前受到广泛研究的TPC译码算法为Chase-Ⅱ算法,该算法译码性能优良的优点,但在生成测试图样时牵涉到大量的排序筛选运算,产生的高复杂度问题导致该算法在工程领域上不利
学位
藏文是我国的少数民族文字之一,在信息化时代,为了更好地理解少数民族语言,从而了解少数民族文化,促进以语言为基础的人工智能的发展,研究藏文自然语言处理是十分有必要的。词向量表示是各项自然语言处理任务的基础,好的词向量表示能够提高自然语言处理任务的效果。如今,中英文词向量的研究较为成熟并且开源的数据集较多;而对藏文词向量表示的研究还在起步阶段,并且也几乎没有开源的数据集。所以为了更好地让计算机理解藏文
学位