基于改进随机森林的耕深预测模型研究

来源 :长春工业大学 | 被引量 : 1次 | 上传用户:ljj35wmsj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人工智能农业(Artificial intelligence agriculture),是未来智慧农业的一种生产方式。它利用智能搜索、自然推理以及自动程序设计等研究,来进行精准农业生产。农业智能系统诊断和管理,可有效节省生产成本。传感器技术正逐步提升农业装备的科技性,例如智能拖拉机配备智能系统完成智能作业、大地块,大型农场的深耕、犁等作业。因为全国各省地形、土壤湿度的不同,导致地表经机具碾压过后平整度差。耕作时存在耕深不稳定问题,影响土壤的疏松、蓄水能力及机具稳定性。为解决这个问题,需要对耕深进行预测分析。以期建立预测效果较好且为智能调节系统提供指标的耕深预测模型。首先本文以智能拖拉机在长春市农安县试验田采集系统及耕深数据为基础,验证数据的有效性,测试系统的稳定性,采用平稳性检验、缺失值处理、异常值处理、无用因素删减、标准化处理作预处理分析。为保证后续模型训练效果的优良性,论文采用皮尔逊(Pearson)系数法、斯皮尔曼(Spearman)系数法对研究对象的相关关系进行研究,删除相关性较弱的特征。在使用随机森林的重要性排序去除重要性分值低于0.01的特征,来避免无效特征的出现,从而防止过拟合发生,提升模型训练效果。其次将机器学习的算法应用在耕深领域,建立决策树(DP-DT)、随机森林(DP-RF)、袋装算法(DP-Bagging)、DP-Boosting、支持向量机(DP-SVM)5种耕深预测新模型。选择评价指标(RMSE、NMSE、R~2、MAE),作为后续预测模型建立与改进的评估标准。通过对建立的5种耕深预测模型初步预测后,与传统的耕深预测模型(多元线性回归模型)对比评估,发现6种模型有利有弊。整体来看,随机森林耕深预测模型效果最好。最后,为了提高耕深模型的预测准确度及效果,从6个模型中选择预测效果最好的随机森林耕深预测模型进行改进。为避免数据噪音存在、模型运行成本高的问题发生,选择用主成分权重外部加权的方式(PCA-FRF)对其初步改进。考虑到随机森林运行速度慢、黑盒子问题存在的这一特性,选择贝叶斯优化融合网格搜索的方法对其参数进行优化。最终构建主成分权重改进的贝叶斯融合网格搜索优化的随机森林耕深预测模型(PCA-BGS-FRF)。改进模型预测的最终结果,拟合优度达92%,匹配度在1左右,预测值与实际值间的最小误差在0.1%以内。不仅避免了过拟合现象的发生、提升了预测准确度。也可以判断异常情况、提供可调节的系统指标,解决耕深不稳定问题。综上,本文所提的PCA-BGS-FRF模型可以提升耕深预测的准确性,有效预测耕深扩展了统计学方法、机器学习算法的运用领域。因此,本文所提的该模型可为洒水机、播种机等传感器堆积的数据预测处理上提供参考。
其他文献
金融时间序列数据在生活中广泛存在,例如货币市场、股票数据等,此类数据具有尖峰厚尾、异方差性、波动集群性、非对称性和多峰等诸多特征。该类数据主要是用广义自回归条件异方差模型来建模的,该模型在描述金融时间序列数据的异方差性上有良好地表现,但是却不能精确地刻画数据的尖峰厚尾、多峰等性质。而混合时间序列模型可以近似任何分布形式,进而可以灵活、有效地对数据进行建模。本文以双自回归模型为基础,将混合模型的建模
学位
为充分发挥宿州市城市绿地系统的生态功能,探究宿州市城市绿地系统质量。以安徽省宿州市建成区为例,将城市绿地空间结构与城市绿地综合效益相结合构建评价体系,运用综合评价法和层次分析法对宿州市建成区绿地系统进行综合评价和社会效益评估,估算其经济效益和生态效益价值。结果显示:宿州市建成区绿地系统的综合评价的值为0.665,说明宿州市建成区绿地系统建设整体水平处于Ⅱ级,从综合评价值来看,规划定量>社会效益>景
期刊
本文将DenseNet神经网络算法进行改进,引入U-Net网络对新型冠状病毒型肺炎和卵巢癌进行检测研究,将大量的医学影像数据实现自动切割,留下目标病灶,希望计算机可以从数据中学习到病理特征,进而为神经网络的学习提供更好的数据条件,也可以实现计算机智能检测的高效识别,得到更好的分类效果,以达到计算机进行智能诊断的目的。本文主要完成了以下的工作内容:1、介绍了新型冠状病毒型肺炎的相关医学理论知识,包括
学位
随着电子商务平台的飞速发展,极大冲击了传统的零售行业模式,线上和线下销售模式之间的矛盾也更加尖锐。同时,信息技术迅猛提高,智能电子设备的普及,物流行业的日益成熟,进一步改变了人们的消费模式和消费习惯。为适应行业发展要求,供应链需要更强的灵活性来适应市场复杂多变的环境。因此,促进供应链线上和线下合理进行定价,满足消费者高质量要求,是一项重要的研究课题。本文采用微分动态下的主从对策模型,研究分析了双渠
学位
在经济、管理、工程技术等领域中存在着大量的非凸优化问题,因此求解非凸优化问题成为优化领域的热点问题。近年来,随着学者们的大量深入研究,已提出了许多解决方法,其中组合同伦内点法是具有全局收敛性的算法之一,在可行域满足一定条件时,可以运用该方法进行求解。对带洞非凸域上的光滑优化问题,提出区域分割方法,分割后的子问题仍可利用组合同伦方法进行求解。本文针对一类非凸非光滑的优化问题进行研究,对带分片光滑约束
学位
目前,癌症已成为世界第二大死因,及时的癌症检测和准确的癌症诊断,对于制定治疗方案,提高癌症治愈率以及改善患者生活质量至关重要。同时,人类基因组计划的完成促使研究人员利用基因数据探寻人体生理和病理的内在关联,建立对抗疾病的有效方法。包括癌症在内的大多数疾病均与人类基因的发育和突变息息相关,因此基于基因数据的癌症分类研究在临床医学上具有重要意义。但是基因表达数据表现出的海量、复杂、指数型增长等特点,也
学位
[目的/意义]互联网平台行业呈现数据高度集中的市场态势,危及消费者的合法权益、市场的有序竞争及舆论的自由发展。探究互联网平台数据垄断主要表现及治理路径能为推动数据垄断治理提供参考。[方法/过程]本文采用文献调研法厘清互联网平台特征与垄断的逻辑联结,基于国外实践案例对数据垄断行为进行分类阐述及归纳抽象。[结果/结论]互联网平台的特征是垄断形成的重要内因。基于数据垄断的行为类型及运行机理,其行为表现可
期刊
近年来,上证指数在我国股票市场中一直作为一个综合反映股市变动情况的重要指标,是多领域专家学者对股市分析的重要数据。本研究选取2016年1月至2020年10月的上证300指数数据,分别从线性模型及微分方程模型两方面进行研究。首先通过频率模型的OPT权重选择法对三个线性模型进行参数估计进而将得到的系数进行权重估计,得出上证指数的复合回归模型,对上证指数的走势变化进行了合理的分析及预测。另一方面创新性地
学位
学位
长久以来,各种传染病给人们带来非常大的灾难,所以了解传染病的传播过程及其相关规律并尽量减少传播概率,对于人们的生活会有很大保障。本文中,运用SIR模型,加入随机扰动项并加以进一步的推导,了解受感染人数增加或减少的变化规律,寻找有效阻止疾病的手段。在构建模型时,加入随机扰动项,过程中涉及到Lipschitz连续条件、随机过程的停时、布朗运动、法图引理等。其中传染病动力学模型是研究方法之一,基于人口增
学位