面向汽车大数据类别不平衡特点的机器学习方法及其应用研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:wain155
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汽车产品的设计、制造、维护等环节将产生大量的数据,使用机器学习技术挖掘汽车大数据所蕴含的价值,对于推进汽车行业数字化转型具有重要意义。在故障预测等任务中,汽车大数据常存在类别不平衡的特点:数据集内不同类别的样本数量有明显差异,少数类被错误分类的代价相比多数类被错误分类的代价更高。类别不平衡的特点使得机器学习模型对少数类的学习不够充分,在预测时难以识别出少数类样本的存在,给故障预测等任务带来高昂的分类代价甚至风险。本文针对以上问题,构建了类别不平衡数据集的机器学习建模流程,在特征层面研究了基于Relief F和IG算法的组合式特征选择方法,在模型层面提出了基于Light GBM模型的不平衡分类模型,开展了面向汽车大数据类别不平衡特点的案例研究与验证,为高效挖掘汽车大数据的价值提供了可借鉴的解决方案。本文的主要研究工作总结如下:(1)类别不平衡数据集的机器学习建模流程通过分析面向类别不平衡数据集机器学习建模的基本框架,构建了包括数据预处理、特征选择、模型训练与调参、模型预测与评估等环节的机器学习建模流程。(2)基于Relief F和IG算法的组合式特征选择方法研究针对单一的特征选择算法对特征重要性的评估不够全面的问题,分析了Relief F和IG算法作为特征选择子算法的优势,研究了两种特征选择算法的组合策略:通过随机欠采样提升Relief F和IG算法的运行效率,在对获得的Relief F和IG算法特征重要性进行归一化处理后,定义新的特征重要性指标。从而提出了组合式特征选择方法,增强了对类别不平衡数据集的分类性能。(3)基于Light GBM模型的不平衡分类模型研究针对传统的机器学习模型对类别不平衡数据集建模能力不足的问题,基于代价敏感学习技术,在模型训练时引入类别权重和L1正则化项修正损失函数,在模型预测时使用阈值移动的方法降低分类阈值;并基于贝叶斯优化方法,使用TPE算法实现对模型超参数项的调参。从而构建了基于Light GBM模型的不平衡分类模型,增强了对类别不平衡数据集的建模能力。(4)面向汽车大数据类别不平衡特点的机器学习方法工程应用基于具备类别不平衡特点的APS Failure at Scania Trucks工程案例,建立了基于Relief F和IG算法的组合式特征选择方法以及基于Light GBM模型的不平衡分类模型的实验方案及流程,并将两种机器学习方法串行使用进行了实验。实验结果表明本文研究有效地增强了对类别不平衡工程案例的预测能力,优于相关文献的研究成果,验证了本文研究的有效性和工程价值。
其他文献
自主/遥控型水下机器人(ARV)作为近年来兴起的新型水下机器人,提高了人类探索和研究深海的能力。ARV使用微细光纤缆作为和母船实时通信的媒介,摆脱了传统脐带缆的限制,既可以做大范围巡航观测,也可以完成定点精细测量。因此研究微细光纤缆在运动过程中的动力学响应和安全的缆绳布放操作,对于ARV的可靠性和安全性具有重要意义。首先本文使用有限段法建立了微细光纤缆的简化模型,缆绳离散为自由连接的可伸长直杆,这
我国心血管病负担日渐加重,其中急性心肌梗塞患病率近年来有上升趋势,防治心血管病刻不容缓。本文的目的是将不同的机器学习分类模型应用于患者急性心肌梗塞的预测中,以期提高模型的预测能力。本文对急性心机梗塞的危险因素进行了梳理和总结,并对患病可能性进行预测。基于涵盖人口学变量、生理学变量、行为变量等在内的10万名患者2016年全年数据。首先,将变量进行细分,针对不同细分类别的变量分别进行描述性统计;接着,
随着近几十年机器人技术的发展进步,全向移动底盘逐渐成为机器人领域中重要的一个分支。全向移动底盘作为机器人的运动部件有着不可替代的作用,具有稳定性高、应用范围广、承载能力强等优势。而在全向移动底盘中,轮组是最为重要的部分,常规轮式底盘往往采用全向轮或麦克纳姆轮实现底盘全向移动,但两种轮组有加工困难、使用寿命短、对地面平整度要求高的缺点。本文通过设计一款全新的模块化轮组全向移动底盘解决常规底盘上述瓶颈
随着半导体技术的不断扩展,互连延迟和功耗等限制了工艺尺寸的进一步缩放。为了打破这些瓶颈,业界和研究机构正在探索三维集成,例如通过晶片堆叠和硅通孔(Through Silicon Via,TSV)。然而,目前的工艺水平下TSV的良率不高,在制造过程中会出现失效的TSV,这些失效可能导致整块芯片的失效,因此对于包括TSV在内的互连方式的失效检测和修复方法是提高三维芯片良率的重要手段。在本篇论文中,给出
随着机器人技术的发展,移动机器人已经应用救灾,工业生产,生活服务各个领域。在这些领域内,移动机器人需要自主快速地穿过一个复杂的动态环境。自主导航算法是智能移动机器人的关键技术。本文主要针对以差分移动机器人和车形移动机器人为代表的非全向移动机器人,在有地图和无地图两种情况下的导航问题开展研究。本文针对差分和车形移动机器人在有地图情况下,提出了一种新的基于控制变量优化的移动机器人时间最优局部规划算法。
在传统制造业向柔性制造转型的过程中,制造过程中的柔性物流主要通过自动换产的AGV来实现,但是仅凭目前AGV自身导航系统所能达到的精度并不能满足一些特殊换产场景下的精度要求。在这写特殊场景下,换产AGV通常需要借助其他的定位系统进行二次精定位,才能实现AGV的全自动换产。另一方面,以工业相机为基础的计算机视觉系统已经在现代机械制造业得到了广泛的应用,其中单目视觉定位系统则是最为常见的工业视觉系统之一
五轴混联加工机器人是一种新型的数控加工装备,具有精度好、刚度大、载重能力强、运动灵活、工作空间大的优点,在碳纤维复合材料铣削、曲面制孔、精密零件打磨等领域应用前景广阔,对提升我国先进制造能力、发展智能制造装备具有重要意义。论文研究五轴混联加工机器人运动控制技术:搭建开放式、模块化的数控系统软硬件平台,实现自由曲面的五轴联动加工功能;针对零件自动加工的轨迹规划问题,论文重点研究轴空间多约束下的速度规
PCR is a technique widely used in research and diagnostics for nucleic acid quantification.Measuring the concentration of different RNA and DNA targets provide useful information related to medical co
学位
近年来,由于石墨烯优异的摩擦学性能,这一新兴的碳纳米材料在摩擦领域越来越吸引眼球。然而由于石墨烯极易团聚,使得它在水介质中难以稳定分散。氧化石墨烯(GO)是石墨烯的一种衍生产物,同样是由大量的单层石墨烯构成,拥有二维平面结构,具有自润滑的性质,在摩擦过程中可以进入摩擦副之间,吸附在摩擦副的表面,防止金属摩擦副之间的直接接触,并通过碳层之间的相对滑移,减弱摩擦副间的摩擦。同时,GO中还有大量的含氧官
协作机器人指可以在工作区域内直接与人进行交互的机器人,是目前机器人领域一个非常热门的研究方向,当前我国协作机器人产业规模不断增大,作为机器的一项重要能力,机器人的抓取已经经历了多年的研究,取得了很多成果。但抓取过程不够智能仍然是制约协作机器人在工业生产中进一步应用的主要障碍。协作机器人的智能抓取可以分为物体的检测与空间六自由度位姿估计,以及路径规划两个方面的内容。由于工业中的零件物体多数为少纹理或