基于机器学习的入境货物检验检疫风险分类研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:yangpengjx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为保障国境公共卫生安全,减少有害生物传播,确保进口货物质量符合我国法律法规要求,检验检疫部门必须依法对出入境动植物及其产品、进出口商品和运输工具等实施检验检疫和监督管理。随着全球化贸易快速发展,传统的批批查验和随机抽查监管方式,受限于人力、物力等资源因素,已不能适应外贸环境的变化。在大数据背景下,急需研究如何凭借申报信息及历史查验结果数据,为入境货物自动确定风险类别,从而协助查验人员进行精准查验,提升工作效率。通过利用机器学习方法对检验检疫数据进行分类模型的研究,能够帮助我们从海量进境货物中快速、准确定位潜在的风险。论文主要以检验检疫申报数据及查验结果数据为对象,对机器学习中数据预处理、分类模型构建、不平衡数据集处理和特征降维处理等技术进行研究。研究内容主要包括以下几点:(1)根据检验检疫数据特点进行预处理,并使用五种经典分类算法建模,对比分析算法对检验检疫风险数据的分类效果。在已有分类算法的基础上,提出基于数据分布的纠错法,提升模型分类效果。(2)采用四种已有不平衡数据处理方法构建完全平衡数据集,对比分析完全平衡的数据集对分类算法产生的影响,再采用组合方法构建不同正负样本比例的数据集,对比分析不同比例对分类算法的影响,并寻找与最佳分类模型最适应的正负样本比例。(3)选择四种已有特征降维方法,对原特征集进行降维,对比通过不同方法获得的特征子集对分类效果的影响。提出分步特征降维法,以组合方式改进单一特征降维方法的不足,对比特征子集的选择效果,寻找最优特征子集。本文首先在对比已有分类算法的基础上,改进了分类方法,提出的基于数据分布的纠错法对数据降维后的空间分布进行分析,寻找并改变误分区间分类结果,该方法取得最高F1值为0.9720,优于本文选择的五种已有算法结果;其次,为解决样本数据不平衡特性对分类算法的影响,本文采用完全平衡和改变比例两种实验思路,通过组合方法探索最适合分类模型的正负样本比例,在该比例为1:5时,搭配基于数据分布的纠错法,取得F1值0.9731,优于原数据集上取得的分类效果;最后,为提升算法效率,本文研究了特征降维技术,对比四种已有特征降维方法的降维效果,分析单一方法的利弊,提出分步特征降维法,利用卡方检验法和信息增益法综合排序,再利用主成分分析提取特征,取得500个特征项时F1值0.9688的结果,优于原数据集的分类效果,模型训练时间也由1846秒缩短至537秒,表明该方法能够有效获得数量较少且效果较优的特征子集,使算法效率获得提升。
其他文献
国外赛义德研究大致包括三个主题:后殖民研究、知识分子研究、批评思想研究。这些研究梳理了赛义德学说的发展脉络和内在矛盾,反映了不同时期的研究热点和动态,但往往忽视三
针对我国能源结构不平衡,整体供能效率低,环境污染较为严重等问题,建设一个安全高效、清洁低碳的能源体系迫在眉睫。综合能源系统的出现是对传统单一能源系统的突破,将电、气
中国有着悠久的柑橘栽培利用历史,在这过程中,古代先民们对于柑橘的认识也日益加深,并产生了特有的柑橘分类和命名方法.为了梳理出中国古代柑橘分类和命名的相关方法及其之间
高中语文“核心素养”是近段时间的热词,其概念、内涵以及对学法、教法上的引导在各大期刊杂志上的阐释屡见不鲜。笔者比较关注的是关于语言和思维能力的说明,其对于语言能力
期刊
期刊
目的:探讨开窗减压术治疗牙源性颌骨囊肿的临床效果.方法:我院收治的牙源性颌骨囊肿患者90例,开窗组45例患者采用开窗减压术治疗;刮治组45例患采用者采用刮治术治疗.比较两组患
首先,运用车身接头单元结构力学性能,研究了接头概念模型建模方法,并建立了高精度的白车身概念特征模型。接着,基于白车身概念特征模型分析计算了主要梁结构灵敏度和接头灵敏
基础教育改革已经迈入核心素养的新时代。根据新课程理念,教师在高三英语总复习中可以实施三维统整的复习教学,即素养维度的上位统整、语用维度的中位统整和知识维度的下位统
该文介绍了计算机网络攻击的一般过程、网络攻击常用的方法及其原理,分析了网络存在的各种安全漏洞并针对这些安全漏洞而确定的网络攻击点和攻击策略.同时对当前常用网络攻击