面向环境数据预测的机器学习算法研究

来源 :中国矿业大学(北京) | 被引量 : 2次 | 上传用户:king2xl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着机器学习近些年来飞速发展,应用机器学习解决领域数据分析、预测等问题成为一个新的研究热点。近年来,随着物联网、移动互联网等高效信息采集、传输技术的发展,环境数据越来越趋向多源化、高维度、序列化等特征,同时也出现了大量物理特征不明显的环境数据。传统的统计建模与预测方法很难充分利用这些环境数据。本文面向环境数据预测开展机器学习算法研究,针对环境数据的特点开展了以下研究工作:(1)基于DFSA的物理特征不明显环境数据预测方法:特征选择是神经网络(Back Propagation,BP)、支持向量机(Support Vector Machine,SVM)、决策树等传统机器学习算法的关键。通过特征不明显的数据预测环境参数是环境数据预测中常见的问题,这成为了特征选择的难题。为了解决上述问题,本文提出了一种基于离散度的特征选择算法(Divergence-based Feature Selection Algorithm,DFSA),并设计了基于DFSA的机器学习框架。以通过遥感图像数据预测土壤含水率为例,将DFSA与其他特征选择算法进行了对比验证。利用BP、SVM、决策树等分类器,基于特征选择算法输出的特征数据集对北京地区含水率分布进行了预测。结果表明,DFSA输出的特征数据集预测精度能达到70%以上,高于其他特征选择算法输出的特征数据集。(2)基于插值补全和LSTM的序列环境数据预测方法:采样率不一致和数据缺失导致样本数量不平衡是利用多维数据预测环境参数的常见问题。针对上述问题,本文提出了基于插值补全和LSTM的序列环境数据预测方法,即利用插值方法对数据进行补全,再通过归一化和正则化对数据进行预处理,最后利用LSTM进行预测。以北京市PM2.5浓度预测为例,基于气象数据和PM2.5数据构建了采样频率不一致的多维数据集,进行了算法验证。利用等值法、线性插值法、牛顿插值法和拉格朗日插值法分别进行时间维度的频率匹配和空间维度上的数据补充。结果表明,上述四种插值补全方法都能够明显提高预测精度,其中拉格朗日插值后的预测精度能够高达82.73%,比没有插值的预测方法高20%以上。(3)基于ConvLSTM-ELM的多维序列数据预测方法:多维序列环境数据,利用CNN、LSTM分别能够解决特征自动提取与时间序列数据利用问题。本文在CNN、LSTM的基础上进行了算法改进,提出了一种ConvLSTM-ELM深度学习网络结构,本网络结构中ELM替代传统网络中的softmax分类器,解决softmax容易陷入局部最优解问题,用于输出最后的结果。为了验证上述算法在典型多维序列环境数据预测中的有效性,设计并实现了基于多个廉价气体传感器整列的甲醛浓度预测实验平台,采集了大量的样本数据。结果表明,CONVLSTM-ELM的预测精度优于传统的CNN+LSTM方法和LSTM方法。
其他文献
苏联时代的“保密行政区”“保密行政区”(ZATO)是苏联时代的一种特别行政区域。这些行政区域是军事工业的科研、生产所在地,苏联时期在地图上不标示、不对社会公开。苏联解
北京西郊的"三山五园"皇家园林集群始建于康熙年间,完成于乾隆年间,是中国古典造园艺术最后的高峰之作。以往多是对每个园林的单体研究,但实际"三山五园"之间存在着紧密联系,
中国西北和华北地区油菜、荞麦和苦荞麦种植面积较大,其收获时遗落在土壤中的种子翌年出苗后变成了严重危害胡麻的杂草,已成为胡麻生产中亟待解决的突出问题。笔者对2甲·辛
马克思主义者认为一切权力都是属于人民的,因此权力理应受到广大人民群众的监督。从把权力关进制度的笼子里,形成不敢腐的惩戒机制、不能腐的防范机制、不想腐的自律机制这三
原发性肝细胞癌(hepatocellular carcinoma,HCC)是我国乃至全世界常见的恶性肿瘤之一,全球发病率逐年增长,目前已超过74.8万/年,排名第五,死亡人数接近69.6万/年,位居肿瘤相
思想政治教育是一定阶级、政党和社会群体遵循人们思想品德形成发展的规律,用一定的思想观念、政治观点、道德规范,对其成员施加有目的、有计划、有组织的影响,使他们形成符
两大课堂协同育人模式在某综合性大学推行了5年,该模式基于协同育人理论和成就动机理论,在整合第一、第二两大课堂教育资源的基础上,形成了一套人才素质结构导向指标体系。本
当今时代是知识经济、信息经济的时代,面对科技的迅猛发展和日益激烈的市场竞争,高新技术企业只有拥有一定的技术创新水平才能提高自身的核心竞争力从而保持长远发展。因此这类企业所必须关心的问题就是如何提升自己的创新绩效。对此,本文认为:首先,企业的技术创新离不开研发活动,而研发活动往往具有风险高、回报周期长的特点,且其以研发投入为基本保障;其次,高管人员拥有着企业创新活动的决策权、管理权和控制权,对研发投
核磁共振技术在医学诊断、材料分析等领域已成为一种强有力的分析方法。然而,传统的核磁共振设备体积庞大,价格昂贵,且封闭式的结构限制了被测物的最大可测量尺寸。在实际中,
为研究初始条件和应力状态对重塑黏土固有不排水强度性状的影响,采用应力路径三轴仪对室内制备的温州黏土进行一系列不同固结路径下的三轴固结不排水剪切试验。通过室内试验