论文部分内容阅读
模型定量回归技术依赖于测量数据的特性,若测量的数据满足所用算法的假设或者分布等条件,则预测模型应用效果好,否则不理想。在水质有机物综合指标光谱法定量回归分析中,由于自然水样的复杂多变性,导致全样本单模型建模回归的精度无法保证。而根据相似的水样预测精度较高的规律,采用分类方法之一的聚类技术根据水样之间相似度分类,再进行多模型建模的方法,是解决上述问题并提高水质模型回归精度和泛化性的重要的方法之一。水质光谱定量分析技术相比较于传统基于湿化学原理的检测方法,是一种具有快速有效、灵敏度高、无二次污染、操作简单等优点的绿色检测技术。本文对水质有机物综合指标进行分类模型建模研究,建立了基于聚类算法的分类预测模型。其中,运用聚类、聚类集成,回归预测方法,对样本数据根据分类信息建立多组模型,其实验结果表明此方法相比于全数据单模型方法更能有效地利用样本信息,提供更高精度的回归模型,为水质分析提供更加可靠的检测方法。本文具体研究主要内容包括:1)首先,本文介绍了水质有机物综合指标光谱法快速检测技术的基本原理,并针对现实检测的100个水样,利用全样本单模型建立了水质总有机碳(TOC)指标的最小二乘支持向量机(LSSVM)预测模型,并通过均方误差,均方误差百分比,相关系数等指标评估模型性能。2)接着,本文创新性提出并建立了基于聚类算法的分类模型——AP-LSSVM模型,并仿真研究了该模型在光谱法水质分析中的应用效果。用该方法与全样本单模型的模型预测效果进行比较,结果表明该模型在预测精度方面有显著提高。但模型中AP聚类算法产生的聚类输出的类别较多,致使某些训练样本数目少,降低了这些模型的精度。为了进一步提高分类模型的精度和模型的泛化性,更有效地综合利用分类信息,在AP-LSSVM模型基础上,本文进一步提出了一种基于聚类集成(Cluster Ensemble,部分文献也译为聚类融合)的分类模型回归算法。算法首先对建模样本进行聚类,然后应用聚类集成得到各个子模型的训练样本并通过最小二乘支持向量机建立各个回归子模型,最后对子模型进行选择、组合得到最终的预测结果。聚类类集成过程中过量聚类成员匹配步骤利用蚁群算法进行匹配:将聚类算法产生的过量聚类成员看做是一个地点,两端加上起点和终点,模仿蚁群算法解决TSP问题中的寻找最优路径的方式,利用蚁群算法找到若干个代表着相似度最大的最优路径,即表示可以将这个路径上的点代表的子类合并成一个大类。仿真结果表明:采用蚁群算法聚类集成后建立的分类模型可以有效地利用训练样本信息,从而提高了模型的预测精度和泛化性能。3)最后,对课题进行总结与展望。