基于数据挖掘的材料自然环境腐蚀预测研究

来源 :北京科技大学 | 被引量 : 5次 | 上传用户:yu830329
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类对于腐蚀行为的研究已经进行了数百年,其中一项重要的挑战就是预测材料自然环境腐蚀的长期发展趋势。由于自然环境腐蚀试验的时间跨度长,空间分布广,腐蚀影响因素复杂多变,其数据通常具有高维度、小样本、数据分布蕴含层次结构、高噪声等特征,这些都增加了传统数据分析方法处理腐蚀试验数据的困难性。因此需要开发适合数据特点的新技术和新算法来预测材料的自然环境腐蚀行为规律。预测是数据挖掘的关键任务之一,随着数据挖掘理论体系的完善,优秀算法不断涌现,但对于高维度、小样本、具有层次结构、数据质量较低的现实数据,现有模型和算法还不能很好的满足实际应用需要。本文在数据挖掘理论的指导下,力求提出能够有效处理高维度、小样本数据,可以合理描述数据层次结构,对数据质量问题具有容错性的预测算法,并将其应用到材料在自然环境腐蚀研究中,挖掘有现实意义的信息,对腐蚀的发展规律进行预测。提出了一系列创造性的思路和方法,主要研究内容和创新点包括:第一,对于数据质量较低、样本容量较小的数据,本文提出了基于梯度提升机的I-BRT算法。在梯度提升机的基础上,提出了三点改进,一是通过引入ε-不敏感损失函数,将模型建立在结构化风险最小化理论基础上,提高模型泛化性能;二是以选择性集成理论为指导,采用动态收缩系数对原算法进行改进;三是借鉴随机森林算法的思想,在模型集成过程中增强各基函数的差异性,以提升集成模型的性能。实验结果表明,应用I-BRT算法建立的模型能够准确的预测材料在自然环境中的腐蚀率,对于数据的高维度、缺失值、高噪声等问题具有较好的鲁棒性,适合小样本数据的处理;第二,对于高维度、小样本数据,本文提出了基于Lasso方法的SALP算法。采用Bayesian Bootstrap算法重构样本,通过多模型集成对预测变量进行预选,消除数据扰动和离群点对于训练模型的影响;应用偏最小二乘权重系数改善Lasso方法在处理小样本数据时的参数估计准确性问题。实验结果表明,SALP算法适用于高维数据的变量选择和模型构建,在材料自然环境腐蚀预测及类似研究领域中的应用具有可行性和实际价值;第三,将多层线性模型理论引入腐蚀预测研究。针对腐蚀数据的结构特点,本文将腐蚀数据视为一组纵向数据,应用多层线性模型原理建立了腐蚀率模型。实验结果表明,基于多层线性模型原理的腐蚀预测模型可以合理的描述数据层次结构;提供稳健的预测结果;并能够较好地处理不平衡数据、小样本数据。在具有层次结构的科学数据分析和类似研究领域,具有实用和推广价值:第四,对于具有纵向数据特征的小样本数据,本文提出了RE-BET算法。在混合效应模型的框架下,采用树形算法估计混合效应模型的固定效应,提高模型发现和描述变量间复杂关系的能力;采用基于Dirichlet过程先验的贝叶斯方法估计混合效应模型的随机效应,改善小样本数据的随机效应参数估值问题。实验结果表明,RE-BET继承了树形算法的优点,对于现实数据具有较好的灵活性和适应性,并且适合小样本纵向数据的分析。本文的研究不仅是对数据挖掘预测算法的发展和完善,而且对材料在自然环境下的腐蚀预测具有较重要的参考和借鉴价值。
其他文献
<正>站在阿里的肩膀上,复用巨大的技术红利。由于互联网渗透率高达50%,20岁到45岁年龄段人口又占了45%以上,东南亚电商市场一直被视为蓝海。亚马逊、腾讯、阿里、京东,以及其
泸州医学院医学基础实验教学示范中心为适应新形势下人才培养需求和自身建设发展需要,引入精细化管理这一先进管理理念。通过对管理体制及实验教学各环节的精细化管理,实验中
全子宫切除术是妇产科常见的手术,包括经腹全子宫切除术、阴式全子宫切除术及腹腔镜下全子宫切除术3种术式。经腹全子宫切除术虽然适用范围广,但创伤大,术后恢复慢;阴式全子
目的研究胰岛素样生长因子结合蛋白(IGFBP)-2及IGFBP-6在结直肠腺瘤(CRA)中的表达及临床意义。方法 收集承德医学院附属医院2012年7月至2013年3月手术治疗后经病理证实为CRA 50例
火箭在飞行过程中,姿控系统与箭体弹性振动存在耦合的可能性。因此,在火箭控制系统设计阶段,就要求火箭横向一阶频率远离刚体截止频率,以提高控制品质,避免失控。常规的频率
影像导航手术(Image-guided Surgery,IGS)是一种具有病灶定位准、术中创伤小、及手术成功率高等众多优点且应用广泛的临床手术。它通常需要在手术前获取高分辨率的三维(three
近年来,我国城市发展速度不断增快.人们不仅关注生活水平,同时越来越关注精神感受,更重视休闲娱乐场所的美观性和实用性.现代园林作为当前人们主要的休息及娱乐场所,有必要通
<正>这里是全球最大的二手书市场,也是英国文学盛典"海伊文学节"的举办地,每年吸引了100万书迷游客趋之若鹜。在英格兰与威尔士边界,Hay-on-wye小镇如同宫崎骏动画里的场景,
期刊
在许多实际应用领域,需要处理的数据大部分是混合类型的。最常见的混合类型的数据是混合了数值型属性和符号型属性的数据。如何针对混合属性数据进行数据挖掘已经成为一个极
近年来,欧洲装饰风格大面积占据着我国景观设计的舞台,人们已经开始厌倦了这种被异国风光长期包围的环境,开始渴望感受自己的民族文化,中国元素在景观设计中越来越得到了重视