论文部分内容阅读
随着数据库应用和互联网应用的迅速发展,人们对信息的需求也越来越多。面对如此巨大而丰富的数据资源,怎样从中发现对自己有用的数据,如何获取隐藏在这些数据中的更重要的信息成为人们特别关注的问题。因此数据挖掘技术就随之产生了。 聚类分析是数据挖掘中的一项重要技术,聚类就是从数据集中找出相似的数据并组成不同的簇。通过聚类,人们能够获得数据分布的情况,观察每个簇的特点,集中对特定的某些簇做进一步的分析。 本文主要是研究聚类分析方法在水污染监测系统中的应用,论述了包括河流污染区的划分、监测数据的聚类检索、河流综合水质评价和监测优化布点四方面的内容。 本文将模糊聚类方法应用于河流的污染区划分上,该方法先将原始监测数据组成样本矩阵,并对其进行正规化处理。然后使用一种新统计量--相似度对正规化的数据进行计算,该统计量包含距离系数与相似系数两个参数,能从“距离”和“形状”两方面较好的反映样本的相似程度。再以相似矩阵为基础进行聚类,每个聚类就代表一个污染区。 在模糊聚类的基础上,本文研究如何对监测数据进行聚类检索。聚类检索通过聚类产生相似数据的分类,并以此为基础进行数据查询,从而提高数据检索的效率。聚类检索的过程是:先对数据进行聚类,得到聚类结果后计算出各聚类中心,得到一个聚类中心文件,然后在此基础上,通过比较各聚类中心与所提供的查询数据来进行数据检索。 应用模糊评判方法来评价河流的水环境质量,主要是通过建立合理的隶属函数,根据实测浓度值确定各污染指标的权重,保证了评价结果的客观、准确,把污染指标的权重集与隶属度矩阵相乘,得到各监测点评价矩阵,最后将监测点的上游所控河长占全长的比值乘以评价矩阵,可以得出全河段的综合评判集。 通过将物元分析方法与模糊聚类分析方法相结合,本文提出一种基于物元分析关联函数的模糊聚类分析方法。该方法的实质是以物元分析所得关联函数作为样本间的相似性统计量,据此构造模糊关系矩阵,从而实现对样本的模糊聚类分析。本文将该方法应用于水污染监测系统中的优化布点,实验数据证明是可行的。 最后本文讨论了在水污染监测系统中聚类分析应用中存在的不足之处和改进。