论文部分内容阅读
在环境与地球化学领域,所获得的数据越来越多。这些数据蕴藏着大量的特征信息、关系信息以及分类信息。同时,这些数据还具有内在相关性,多维性,甚至非线性的特点,利用传统的地球化学方法很难直接对多维数据进行分析。为此,本文以多维环境与地球化学数据为研究对象,采用机器学习和模式识别领域中的降维和聚类算法对以线性关系为主的环境地球化学数据进行聚类分析,对以非线性关系为主的油气地球化学数据进行非线性映射,利用端元混合分析结合降维方法对多维地球化学数据进行混源解析,利用多维数据的可视化技术在低维空间(二维或三维)中展示多维数据之间的关系,揭示多维数据的地球化学意义。主要的研究成果如下:1.以广州市李坑垃圾填埋场及周边为研究区域,采用舒卡列夫分类法、Piper三线图对地下水的化学类型进行了描述性分类。为了更直观、更细致地展示地下水中各组分之间的关系和亲疏程度,利用层次聚类分析和K均值聚类算法对研究区内地下水中的主离子、微量元素和有机污染物多环芳烃的来源进行了聚类分析。分析得出研究区域内的地下水的化学类型主要是HCO3-Ca型水、HCO3-Na+K型水和Cl-Na+K型水,并且在枯水期和丰水期这两个不同时期,水的化学类型会发生变化,说明地下水中存在着离子交换和离子混合过程。两种聚类算法很好地展示了样本间的亲疏关系和相似程度,与实际地质背景和水文条件相吻合。说明层次聚类分析和K-均值聚类算法都能有效地对多维地球化学数据进行聚类分析,得到的聚类结果直观、清晰,易于理解和分析,其效果远远好于描述性的分类方法。2.油气混源现象十分普遍,查明混源油中的端元组成和来源等问题对于油气勘探具有重要的现实意义。采用自组织映射和Sammon映射算法对74个混源油样品包含18个生物标志化合物比值指标和2个稳定同位素特征指标进行了非线性映射分析,并将自组织映射后的分类结果进行可视化。分析得出74个样本共分为四类,分别是来自于三叠纪的Shublik页岩,来自于白垩纪的GRZ页岩,来自于三叠纪的Shublik页岩与白垩纪的GRZ页岩的混合油以及来自于基底(Hettangian-Aalenian)金加克页岩烃源岩。并将两种算法得到的分析结果与交替最小二乘法和多维标度得到的结果进行比较。通过对比可知,自组织映射和Sammon映射对油气地球化学中的非线性数据有很好的分类效果。在应用中还需要结合具体实际来选择合适的算法,并得出合理的结论和解释。这样有利于揭示油气地球化学数据的地球化学意义。3.利用主成分分析结合端元混合分析方法对地下水中的主量组分、微量元素和有机物多环芳烃的污染来源以及污染途径进行了混源解析研究。并将分析结果与定性分析结果进行对比验证,以查明地下水中各组分的污染来源。利用主成分分析分别对主量组分、微量元素和多环芳烃等数据集合进行降维处理,将原特指标重新组合成新的无相关的综合指标,并保持原始指标的主要特征。同时按照各主成分的方差贡献率,来选择主成分,再结合端元混分分析原理,确定出端元个数,对样本进行混源解析。通过分析得出,地下水中各组分的污染存在着两个污染源:一个是生活和农业的面源污染,另一个来源是渗滤液的污染,并且渗滤液污染地下水的途径主要是通过:沿断层(F7、F9)向垃圾填埋场的地下迁移,造成断层附近的地下水受到严重污染;直接在地面发生渗漏。此外,地下水中的多环芳烃还受到大气降雨以及工业污染。此结果与研究区的地理位置、水文地质、气候等自然概况相吻合。4.利用独立成分分析结合端元混合分析方法对地下水中的多环芳烃进行预处理和端元解析。采用非高斯最大化的估计方法进行独立成分计算,并最终确定端元个数和位置。经过分析可知,利用ICA-EMMA得出的多环芳烃来源与PCA-EMMA方法得出的结论一致,这也验证了李坑垃圾填埋场周围地下水中的多环芳烃主要来自垃圾渗滤液、大气降水、城市生活污水和工业废水排放。其中,渗滤液虽然没有直接排放到地下水中,但垃圾填埋场周边有受渗滤液不同程度污染的水质,而且呈现出不同的水文地球化学特征,并且与研究区的地理位置、水文地质、气候等自然概况相吻合。由此可以看出这两种方法对于以线性关系为主的水文地球化学数据具有较好的混源解析效果。