论文部分内容阅读
污染源位置的实时识别能有效预防突发事件中有害化学物的释放对人类生命财产造成的损失。目前污染源识别的方法在实际应用都会遇到诸多困难,如QR方法需要预先知道污染源浓度的几何分布作为初始条件,伴随概率方法需要预先知道源释放的具体时间,这在现实应用中都是难以实现的。以人工神经网络为代表的机器学习方法能够在只以传感器测量的污染物浓度为输入,准确预测出污染源的位置。在一个有7个房间的建筑内,我们假设只有一个污染源。对污染源的特性(污染源的位置,释放质量,释放后持续时长)进行独立同分布的采样,然后使用CONTAM对每一个样本进行计算。我们得到了气象参数恒定的数据集一和气象参数服从一定分布的数据集二。利用这两个数据集,我们比较了在不同参数,不同特征向量选择,不同训练样本个数,不同气象参数以及传感器的不同布局下人工神经网络,支持向量机,k近邻算法和朴素贝叶斯分类器这四种分类学习算法识别室内污染源位置的性能,得到了如下结论:1.在特征选择方面,我们发现改进后的以一段时间传感器的读数变化值作为输入训练的分类模型要优于只以浓度瞬时值作为输入的情况。四种学习模型的预测性能皆有较大提升。实际上,我们发现,对于传感器个数大于等于3个的情况,对于ANN模型和SVM模型,以2分钟到5分钟内污染物浓度值作为输入训练的模型预测精度几乎一样,都可以提高到接近100%。而为了尽快识别出污染源的位置,这个时候我们选择以2分钟内浓度变化值为输入训练模型。而对于传感器个数少于3个的情况,ANN模型和SVM模型最好以3分钟内污染物浓度值作为输入,这样模型的预测精度仍然能达到接近100%。对于KNN模型,传感器个数大于等于3个时,模型精度在95%左右。而传感器个数只有2个时,当输入的浓度变化值持续时间越长,最终模型的预测精度越高。如果这时要保证模型的预测精度保持在90%以上,那么我们最少需要使用4分钟内污染物浓度变化值作为输入。对于NB模型,当传感器个数大于等于3个时,输入为2分钟内浓度变化值反而比更长时间的浓度输入训练的模型预测效果更佳。而只有2个传感器时,则当输入的浓度变化值持续时间越长,最终模型的预测精度越高,但这种提高非常微小。2.在训练样本个数对分类模型的影响方面,我们发现对于ANN模型,训练样本个数在390时,20折交叉验证的精度已经接近于100%。对于SVM模型,随着训练样本个数的增加,20折交叉验证的精度也逐步增加,并且增长速度逐渐变慢。而对于KNN模型来说,预测精度随着样本个数的增加有着明显的提高。当样本数到达1950时,20折交叉验证的精度达到91%。由此可知,使用KNN模型来预测污染源的位置,为了达到和ANN或者SVM同样的精度,需要更多的训练样本来训练KNN模型。最后,对于NB模型,增加训练样本的个数并没有像KNN算法那样显著提高预测精度。3.气象参数恒定不变时,ANN算法预测精度最高,精度为100%,其次依次为SVM,KNN,NB算法。ANN分类算法和SVM算法几乎不受传感器个数的影响。即使室内只有2个传感器,污染源位置识别精度还是能达到100%和99%。而当气象参数为服从一定分布时,分类模型的20折交叉验证精度受传感器个数的影响更为强烈。随着传感器个数的减少,它们的预测精度接近线性下降。不管是否引入气象参数变量,四种分类模型的性能大小依次为ANN>SVM>KNN>NB。4.传感器的布局本身存在优劣。这与选用何种分类模型无关。也就是说在某种布局下某一种分类算法具有较高的预测精度,那么它对于其他分类算法也具有较高的预测精度。传感器的个数越接近建筑区域个数,各类布局对于分类模型的影响就越低。而传感器的个数越少,各类布局之间的差异也越明显。使用气象参数恒定的数据库,我们研究了使用多元线性回归模型,人工神经网络模型和支持向量回归模型来预测污染源释放质量。得到了如下几个结论:1.以5分钟内污染物浓度的变化值作为输入预测污染源释放质量精度要优于以传感器读取的瞬时浓度值作为输入。2.我们发现当污染源实际释放质量较小时(低于40mg),以5分钟内传感器读数变化值作为输入的预测精度要高于实际释放质量较大(高于60mg)的情况。前者的预测值与实际值几乎相等,而后者的预测值与实际值偏差较大。其中原因可能是当实际释放质量比较小时,建筑与室外的空气交换将导致更导致更少的污染物传递到室外大气中。而当污染源释放的质量较大时,更多的污染物被传递到室外,这使得我们的预测值往往会比实际值低。3.SVM回归模型在室内污染源释放质量的预测精度相较于多元线性回归模型和人工神经网络模型表现较差。4.污染源释放质量识别问题不同于污染源位置识别的情况,并非传感器个数越多,预测精度越高。实际上,我们发现对于ANN模型,5个传感器预测均方差最低,而对于线性回归,4个传感器时预测均方差最低。随着传感器个数的减少,预测均方差会缓慢降低,并且在达到最低值时,如果再减少传感器的个数,均方差会急剧上升。这样的最小值正是我们所关心的。因为它意味着使用最少的传感器成本,却能获得最佳的预测精度。