机器学习方法在室内污染源特性识别的研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:wangxinyu999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
污染源位置的实时识别能有效预防突发事件中有害化学物的释放对人类生命财产造成的损失。目前污染源识别的方法在实际应用都会遇到诸多困难,如QR方法需要预先知道污染源浓度的几何分布作为初始条件,伴随概率方法需要预先知道源释放的具体时间,这在现实应用中都是难以实现的。以人工神经网络为代表的机器学习方法能够在只以传感器测量的污染物浓度为输入,准确预测出污染源的位置。在一个有7个房间的建筑内,我们假设只有一个污染源。对污染源的特性(污染源的位置,释放质量,释放后持续时长)进行独立同分布的采样,然后使用CONTAM对每一个样本进行计算。我们得到了气象参数恒定的数据集一和气象参数服从一定分布的数据集二。利用这两个数据集,我们比较了在不同参数,不同特征向量选择,不同训练样本个数,不同气象参数以及传感器的不同布局下人工神经网络,支持向量机,k近邻算法和朴素贝叶斯分类器这四种分类学习算法识别室内污染源位置的性能,得到了如下结论:1.在特征选择方面,我们发现改进后的以一段时间传感器的读数变化值作为输入训练的分类模型要优于只以浓度瞬时值作为输入的情况。四种学习模型的预测性能皆有较大提升。实际上,我们发现,对于传感器个数大于等于3个的情况,对于ANN模型和SVM模型,以2分钟到5分钟内污染物浓度值作为输入训练的模型预测精度几乎一样,都可以提高到接近100%。而为了尽快识别出污染源的位置,这个时候我们选择以2分钟内浓度变化值为输入训练模型。而对于传感器个数少于3个的情况,ANN模型和SVM模型最好以3分钟内污染物浓度值作为输入,这样模型的预测精度仍然能达到接近100%。对于KNN模型,传感器个数大于等于3个时,模型精度在95%左右。而传感器个数只有2个时,当输入的浓度变化值持续时间越长,最终模型的预测精度越高。如果这时要保证模型的预测精度保持在90%以上,那么我们最少需要使用4分钟内污染物浓度变化值作为输入。对于NB模型,当传感器个数大于等于3个时,输入为2分钟内浓度变化值反而比更长时间的浓度输入训练的模型预测效果更佳。而只有2个传感器时,则当输入的浓度变化值持续时间越长,最终模型的预测精度越高,但这种提高非常微小。2.在训练样本个数对分类模型的影响方面,我们发现对于ANN模型,训练样本个数在390时,20折交叉验证的精度已经接近于100%。对于SVM模型,随着训练样本个数的增加,20折交叉验证的精度也逐步增加,并且增长速度逐渐变慢。而对于KNN模型来说,预测精度随着样本个数的增加有着明显的提高。当样本数到达1950时,20折交叉验证的精度达到91%。由此可知,使用KNN模型来预测污染源的位置,为了达到和ANN或者SVM同样的精度,需要更多的训练样本来训练KNN模型。最后,对于NB模型,增加训练样本的个数并没有像KNN算法那样显著提高预测精度。3.气象参数恒定不变时,ANN算法预测精度最高,精度为100%,其次依次为SVM,KNN,NB算法。ANN分类算法和SVM算法几乎不受传感器个数的影响。即使室内只有2个传感器,污染源位置识别精度还是能达到100%和99%。而当气象参数为服从一定分布时,分类模型的20折交叉验证精度受传感器个数的影响更为强烈。随着传感器个数的减少,它们的预测精度接近线性下降。不管是否引入气象参数变量,四种分类模型的性能大小依次为ANN>SVM>KNN>NB。4.传感器的布局本身存在优劣。这与选用何种分类模型无关。也就是说在某种布局下某一种分类算法具有较高的预测精度,那么它对于其他分类算法也具有较高的预测精度。传感器的个数越接近建筑区域个数,各类布局对于分类模型的影响就越低。而传感器的个数越少,各类布局之间的差异也越明显。使用气象参数恒定的数据库,我们研究了使用多元线性回归模型,人工神经网络模型和支持向量回归模型来预测污染源释放质量。得到了如下几个结论:1.以5分钟内污染物浓度的变化值作为输入预测污染源释放质量精度要优于以传感器读取的瞬时浓度值作为输入。2.我们发现当污染源实际释放质量较小时(低于40mg),以5分钟内传感器读数变化值作为输入的预测精度要高于实际释放质量较大(高于60mg)的情况。前者的预测值与实际值几乎相等,而后者的预测值与实际值偏差较大。其中原因可能是当实际释放质量比较小时,建筑与室外的空气交换将导致更导致更少的污染物传递到室外大气中。而当污染源释放的质量较大时,更多的污染物被传递到室外,这使得我们的预测值往往会比实际值低。3.SVM回归模型在室内污染源释放质量的预测精度相较于多元线性回归模型和人工神经网络模型表现较差。4.污染源释放质量识别问题不同于污染源位置识别的情况,并非传感器个数越多,预测精度越高。实际上,我们发现对于ANN模型,5个传感器预测均方差最低,而对于线性回归,4个传感器时预测均方差最低。随着传感器个数的减少,预测均方差会缓慢降低,并且在达到最低值时,如果再减少传感器的个数,均方差会急剧上升。这样的最小值正是我们所关心的。因为它意味着使用最少的传感器成本,却能获得最佳的预测精度。
其他文献
京沪高铁南京南站屋盖网架采取“横向分单元高空滑移,端部高空平台散装”的方法,网架滑移时荷载大、轨道多、滑移距离长.通过对网架高空拼装平台及高空滑移轨道支撑体系进行
本文提出了一种新型表面粗糙度光纤传感器,阐述了它的结构、工作原理、给出了测试结果。动用模糊算法,分析实测数据,得到系统的测量规则和隶属函数,经过模糊推理和决策计算出相应
工地的绿色施工,扬尘控制是其中重要的一环,需要根据不同的工地特点,制定出不同的扬尘控制方案.在某实际工程中采取了2种定型化的抑尘、降尘的定型化设施,将扬尘控制进行定型
就现存及正在开发的、新的填土压实检测技术和方法,从基本原理到施测技术等方面进行了全面的介绍、分析和评价,在对第一代压实系数K和第二代基床系数K30检测技术进行深入分析
近年来,在介观物理领域里双量子点系统受到了广泛的研究,特别是耦合于铁磁电极之间的双量子点系统的输运性质备受关注,无论是在实验研究还是在理论研究方面,都是如此。事实上
通过对京沪通道津浦正线Ⅰ等线路道床情况的调查与分析,确定道床综合维修的周期和道床修程的设置.
监察制度作为维护国家长治久安的一种政治制度,从秦汉时期便一直存在于我国的封建王朝之中,而唐朝作为一个承上启下的朝代,是我国古代监察制度发展的成熟完备阶段,监察制度经过历朝历代的发展,在唐朝时达到成熟与完善,唐朝建立了一整套从中央到地方严密的行政监察系统,成为了中华文明历史上,一份宝贵的财富,可以说唐王朝的繁荣昌盛,与统治者重视监察制度以及唐朝完善的监察制度关联重大。唐朝的监察体制包括中央和地方两套
城市社区作为城市细胞,是城市文明的最终落脚点。如果把城市比作一棵大树,市政街道为枝干,而社区无疑是这个大树的根系,只有养护好根系才能确保这棵大树的枝繁叶茂。随着社会管理体制改革的不断深入和改革成果的不断积累,城市社区公共事务显露出复杂性、综合性、跨界性和不确定性,其有效处理需要城市管理部门(以下简称城管)与社区的合作,即协同治理。又鉴于城管部门城市管理方式的转变和精细化管理的要求,以系统性、整体性
纳米银焊膏作为一种新型的无铅焊料,具有优良的高温稳定性,导电导热性能,满足了大功率和宽禁带半导体器件的高温和高密度封装要求,被广泛关注。而镀金基板作为航空航天电子产
现浇轻质无机保温复合外墙体是框架结构的一体式刚性围护体系,将建筑外围护结构和外墙保温融为一体,外墙与内墙通过连接筋进行连接,成功实现了现浇轻质无机保温复合外墙与砌