基于KNN算法的船舶吨级判别研究

来源 :中国水运 | 被引量 : 0次 | 上传用户:bloodfort
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:针对航运大数据应用中船舶吨级数据难以获取的情况,本文提出了一种基于K最近邻(K-Nearest Neighbor,KNN)算法的船舶吨级判别模型。该模型考虑了船舶类型、船长、型宽、型深等参数的影响,以常年在江苏沿江、沿海运行的船舶为例,选取1万余条船舶数据进行训练和验证。结果表明,该模型在船舶吨级判别上具有较好的准确性,能够应用于实际航运数据分析。
  关键词:船舶特征;判别模型;K近邻
  中图分类号:U674.13         文献标识码:A            文章编号:1006—7973(2021)05-0104-02
  1概述
  船舶属性数据是非常重要的基础数据,包括船舶身份(IMO、MMSI、船名)、船舶类型、船舶尺度(船舶长度、船舶型宽、船舶型深、满载吃水)、船舶吨级(船舶总吨、船舶净吨、船舶载重吨)等内容。在航运大数据应用中,船舶属性信息与船舶动态信息相结合,能够为航运各领域发展决策提供支撑,如将船舶属性信息中的船舶吨级与船舶AIS数据相结合,能够估算港口在某段时间内的吞吐量。但在航运数据的实际应用过程中,由于航运数据开放共享格局尚未形成,研究人员较难获得全部船舶属性数据,尤其是船舶属性数据中的船舶吨级信息,如AIS数据的船舶静态信息仅仅包括船舶身份、船舶长度、船舶型深、船舶类型等内容,缺少船舶吨级等内容,使航运大数据的应用缺少关键基础数据支撑。
  传统的船舶吨级推算主要是利用船舶长度通过曲线估计来计算船舶吨位。传统方法需针对不同的船型选择不同的曲线(二次曲线、立方曲线、S曲线、幂函数等)进行拟合,建模过程繁杂,使用较为不便[1]。针对船舶吨级信息难以获得以及传统估算方法使用不便的问题,本文探索了大数据机器学习方法,提出了基于KNN算法的船舶吨级判别模型。
  2 KNN算法
  2.1 KNN算法原理
  KNN(K-Nearest Neighbor)算法即K最邻近法,是机器学习算法中最常用的分类算法之一,KNN算法主要应用领域是对未知事物的判别,即判别位置事物属于哪一类[2-3]。
  算法模型首先对给定的一个训练数据集T进行训练。其中,xi为实例的特征向量,yi为实例的类别。
  输出过程中,根据给定的距离度量,在训练集T中找出与x最鄰近的k个点,涵盖这k个点的x的邻域为Nk(x);在Nk(x)中根据分类规则决定x的类别y。
  KNN算法模型由距离度量、k值的选择和分类决策规则决定。
  2.2 KNN算法实现流程与评价指标
  相比传统的依据船舶长度的曲线估计方法,本次基于KNN的船舶吨级判别模型选取了更多的特征向量并采用不同组合进行建模,模型1选取“船舶总长、型宽、船舶类型”为特征向量,模型2选取“船舶总长、型宽、型深、船舶类型”为特征向量。算法的实现流程如图1所示。
  为验证模型的可靠性,模型采用决定系数(R2)作为精度评价指标,R2代表目标向量的变化中有多少能通过模型进行解释,具体计算公式为:
  式中,是样本i的真实值,是样本的预测值,是目标向量的平均值, R2得分越接近1,代表模型的性能越好。
  3 船舶吨级判别模型
  3.1 基础数据
  本文数据采用常年在江苏沿江、沿海运行的约1.5万艘船舶属性数据,数据内容包括船名、MMSI号、IMO号、总长、型宽、型深、总吨、净吨、载重吨、船籍港、经营人等信息,具体数据示例如表1。
  沿江、沿海运行的船舶种类较多,主要船舶种类包括散货船、石油化学品船、杂货船等。本次根据海港总体设计规范,以船舶载重吨计算了散货船、杂货船、石油化学品船、集装箱船等货运船舶的船舶吨级。船舶主要类型及等级分布如图2所示。
  3.2 特征数据处理
  船舶属性数据处理步骤包括:
  (1)数据清理。对船舶类型、载重吨等关键属性缺失以及船舶类型样本较少的船舶数据进行删除处理,最终得到9490条船舶的属性信息。
  (2)数据特征量化。特征向量中的船舶类型和目标向量中的船舶吨级为非数值类型,需将其量化为数值,以实现距离计算。
  (3)数据抽样。训练集与测试集按照9:1的比例进行数据抽样,最终得到8541条训练样本和949条测试样本。
  3.3 模型参数标定
  KNN模型的预测效果依赖于不同邻近数K值的选定,K值太大容易引起欠拟合,太小则容易过拟合。本文通过交叉验证确定最优k值,从图3可以看出,K=3时,交叉验证得分R2最高,为0.96,因此取K=3标定本次船舶吨级判别模型。
  3.4 模型预测结果分析
  用上述建立的KNN船舶吨级判别模型对测试集进行测试,从图4对测试集的测试结果可以看出,两种模型的预测值与真实值基本吻合,模型决定系数R2均大于0.9,准确性较好,其中选用“船舶总长、型宽、船舶类型”作为特征向量的模型1具有更好的测试效果。
  4分析与结论
  KNN方法较为适合类域交叉的待分样本集的类别判别,本文基于KNN算法,以船舶总长、型宽、型深、船舶类型为特征向量,创新性地提出了船舶吨级判别模型,计算的结果与实际情况基本吻合,具有较好的准确性;同时,相比于传统方法,本次提出的算法适用于不同尺度及类型的船舶吨级判别,应用更为便捷,能够更好地为航运大数据研究提供基础数据支撑。
  参考文献:
  [1]朱连江.内河船舶交通量换算系数研究[D].大连:大连海事大学,2019.
  [2]周志华.机器学习[M].北京:清华大学出版社,2016.
  [3]霍豪,沈金星.基于KNN算法的公交到站时间预测[J].交通运输工程与信息学报,2020,12(18):76-102.
其他文献
本文主要通过探究维京邮轮的整体战略、业务单位战略以及职能战略,对其战略选择进行简要分析。
摘 要:为建立全面、准确的通航环境要素数据库,开发建设通航环境数据采集移动端APP,包含数据采集功能模块、采集数据存储与管理服务模块、采集数据合规性检查及统计分析模块等,用于现场采集和录入通航环境数据。利用先进的卫星遥感技术结合佐证材料、外业现场核实等手段对已采集通航环境数据的准确性、全面性进行核查,对遗漏数据进行补充完善,对错误数据进行校正修改。并将核查后的通航环境要素数据进行矢量化,在已有的电
摘 要:随着长江航道通航服务要求,研发高效的山区航道维护作业工具,具有重要现实意义。本文针对竹制爪杆其结构简陋与功能性的不足,利用新材料和新结构,研制了新型的航道作业杆,并集成了多行业实用性的功能接头,实现了钩、拉、锯、砍等一杆多用的功能。经实际测试应用,该工具突破了传统爪杆的功能单一性,可提高航道维护现场作业效率,推动了航道维护手动工具的技术革新。  关键词:作业杆;多功能;航道作业  中图分类
摘 要:大藤峡水利枢纽二期导流期间,施工期第五年10月底截流戗堤进占将主河槽大部分截断,水流条件及航道尺度已不能满足通航要求,第六年2月底二期上游围堰填筑可满足蓄水最低通航水位,永久船闸具备通航条件,大约4个月工程坝址处河道航运中断。为此,需采取措施解决截流断航期货物过坝运输问题,翻坝转运是解决这一问题的措施之一。  关键词:大藤峡水利枢纽;截流断航;翻坝转运;方案研究  中图分类号:TV61
摘 要:针对辅助靠泊系统中主要部件应力销进行国产化研究,分析国产化的主要思路和指标,并在此基础上在典型接收站进行实际应用,总结应用情况,供推广和借鉴。  关键词:应力销;国产化;实际应用  中图分类号:U66 文献标识码:A 文章编号:1006—7973(2021)05-0065-03  1概述  辅助靠泊系统是为码头船舶靠离泊时提供安全保障的设备设施,它包含靠泊监控系统(Las
摘 要:伴随通讯科技的不断进步,远程检验的发展及应用使得船舶检验更加方便快捷,现已在各大船级社临时检验中进行了广泛的应用。  关键词:5G通讯技术;远程检验;MESH自组网;5G CPE  中图分类号:U675.7 文献标识码:A 文章編号:1006—7973(2021)05-0058-03  1远程检验产生的背景  在疫情的影响下,加快了检验方式的变革。为适应新的社会需求,检验
摘 要:近几年来,邮轮旅游作为新兴产业迅速发展,邮轮作为邮轮旅游的载体,邮轮舒适性要求越来越高。针对邮轮舒适性,结合TOPSIS法和熵权法进行综合研究,从振动、噪音、湿热环境、空间设计、光环境、气味和色彩设计七个角度,总结了17个邮轮舒适度的影响指标,并构建了邮轮舒适度评价指标体系。以一艘邮轮舒适性设计的多种方案为例,通过比较各备选方案与正负理想解的相对贴近度,选择出最优方案。该实例验证了TOPS
摘 要:本文以京杭运河苏北段电子航道图建设作为研究对象,重点围绕京杭运河苏北段的基本情况及电子航道图建设需求,按照电子航道图的建设标准、建设步骤,提出京杭运河苏北段电子航道图的建设方案,在此基础上,探索电子航道图在航道运行状态智能监测与分析、航道智能巡查、锚地停泊区调度管理、船舶导助航、辅助决策服务等方面的应用,以期通过电子航道图建设,提升以京杭运河苏北段的数字化、智慧化水平。  关键词:京杭运河
摘 要:近年来,随着地方经济社会发展、城镇化建设和产业布局调整步伐的加快,批复后的港口总体规划的部分港口岸线利用方案及港区布置方案无法适应快速的形势变化,港口总体规划调整项目日益增加,但关于港口总体规划的编制内容及文本格式缺乏指导性文件。本文对调整港口总体规划报告的主要原因进行了简要分析,对调整港口总体规划报告的编制内容进行了初步探讨,以便更好地发挥港口规划的先行官作用。  关键词:调整;港口总体
摘 要:高级?分析可以反映出系统各部件间的相互作用以及部件的实际优化潜力。本文采用高级?分析的方法对船舶压缩-喷射制冷系统的性能进行了分析,将系统部件的?损失分解为内/外源性?损失和可/不可避免?损失,并利用?的二次分割模型进一步将系统部件的?损失分为内源性可避免?损失、外源性可避免?损失、内源性不可避免?损失、外源性不可避免?损失四种。在设计工况下整个系统的内源性可避免?损失占比56.13%,表