论文部分内容阅读
摘要建立了一种基于对能力验证数据进行聚类分析的方法,克服了以往采用稳健统计方法处理的层次性和深度不足的缺陷,可将参加实验室按测试结果及相似性进行分组,便于对检测过程存在问题的查找和分析,也有利于检测实验室对自身测试水平的认识和评价。
关键词聚类分析;稳健统计方法;计量;对比
中图分类号 O212.1 文献标识码A文章编号 1007-5739(2009)06-0258-06
聚类分析(Cluster Analysis)是进行数据统计分析的一类重要工具[1-5],广泛应用于商业、经济、医药等领域,通过数据分类获得有用的统计信息,是多元统计分析的一个重要分支,根据分类对象的数量指标,定量地确定分类对象之间的相似关系并进行分类。聚类分析中应用广泛的是层次聚类法和K-Means算法。能力验证,作为我国实现量值溯源并确保分析实验室数据可靠、准确一致的重要工具,发挥着日益广泛和深入的作用[6]。在数据处理上一般采用稳健统计方法进行评价[7-11]。
稳健统计方法是世界各国计量机构在组织能力验证或国际比对中常用的统计方法,该方法在数据非正态分布或存在离群值时优势明显,Z比分数为其评价的重要指标[12]。其缺点是提供信息较少,缺乏深入和细致的描述,无法描述实验室数据相关性之间的联系。当测试对象为多元素或多组分时,只能单个项目分析,缺乏整体判断和描述,无法适应比对内容与对象不断增加的趋势[13]。
本文尝试将聚类分析应用在能力验证数据处理中,结合稳健统计方法,以获得更加细致全面的数据信息。通过把不同实验室测量数据划分为不同的集合和小组,方便对能力验证数据的分析和比对原因的查找,可对不同实验室的共性问题,如测量方法的比较等进行深入的探讨,为化学计量领域理论和实践中深入处理实验数据提供方法基础和探讨依据。通过文献检索,目前国内外尚无类似报道。
本文将聚类分析与稳健统计方法结合起来,对CNAS T0402粮食中重金属铅、镉含量测定的数据进行处理。中国合格评定国家认可委员会于2008年组织的全国范围的一次能力验证,由中国计量科学研究院组织实施,其目的是了解我国目前粮食检测机构实际的测量水平和潜在问题。研究表明,该方法可以分层次、多角度对数据进行分析,具有广泛的应用价值。
1材料与方法
1.1能力验证样品的制备
此次能力验证样品选用河南省重金属污染区生长的小麦,经清理除杂,去除糠、麸皮以及子实、胚芽,用鄂式破碎机初碎,将候选物在70℃烘干24h,去除水分。用高铝球磨机研磨36~48h,使样品99%以上通过80目。制备好的样品装入清洁塑料桶中,封口保存。经均匀性检验合格后混匀分装。用Co60辅照灭活,置于干燥阴凉处保存。
1.2样品的均匀性和稳定性
样品采用等离子体发射光谱法(ICPOES)和等离子体质谱法(ICPMS)进行均匀性和稳定性检验。在均匀性检验中,随机抽取15瓶样品,每瓶在上部和底部取2个样品。每个样品准确称取0.2g,加入5mL浓硝酸,用微波消解炉进行消解。完毕待冷却后,转移到洁净塑料瓶中,加入In或Y内标,上机测试。经F分析,样品中Pb、Cd均匀性良好。经t检验,样品稳定性检验良好。
1.3推荐方法
此次能力验证推荐方法为GB/T5009.12-2003食品中铅的测定方法和GB/T5009.15-2003食品中镉的测定方法。
1.4数据统计分析方法和软件
该研究选用SPSS软件进行数据处理。分层聚类分析子模块,聚类法采用组间连接法(Between Groups Linkage),测度方法选择欧氏距离平方(Squared Euclidean Distance),即2项之间的距离是每个变量值之差的平方和[14]。
2结果与讨论
2.1采用分析方法的统计情况
在此次能力验证中,共采用4种测量方法,分别是原子吸收分析方法(AAS)、等离子体发射光谱法(ICPOES)、等离子体质谱法(ICPMS)、原子荧光光谱法(AFS)(见表1)。综合分析,AAS、ICP、ICPMS之间的比例接近7:1:1。这说明原子吸收作为国家标准GB/T5009.12-2003和GB/T5009.15-2003的推荐方法,在实验室分析领域仍占据相当的比重。
2.3能力验证统计结果
能力验证结果见表3,采用稳健变异系数和Z比分数法进行评价,其评价标准为|Z|≤2为满意结果;2<|Z|<3为有问题的结果;|Z|≥3为不满意(离群)结果。从表3可知,对铅和镉元素,分别有6家实验室和7家实验室Z比分数离群,约占参加实验室总数的1/10。有人认为当参加实验室较多时,计算出的标准差可能偏小,易导致部分实验室的Z比分数大于2,而被误判为有问题或不满意[16]。
2.4铅数据分布特征
根据能力验证项目各实验室对小麦粉中铅的测试结果之间的相似程度,用聚类分析进行分组(见图1)。由图1可知,参加实验室可以划分为2个组,其中22、39、25、3、49、50号为1组,标记为1~2,铅测定结果为0.60~1.04mg/kg,与表3所列中位值相比偏低;其余实验室为1组1-1。该组又可划分为1-1-1、1-1-2,分别可进一步细分为1-1-1-1、1-1-1-2和1-1-2-1、1-1-2-2共4组,在此基础上仍可细分。分析数据可知,1-1-1-1的数据范围为1.24~1.33mg/kg,1-1-1-2组主要集中在1.41~1.55mg/kg。1-1-2的数据范围为1.61~1.81mg/kg。结合表3数据,对于22、39、25、3、49、50号实验室,其Z比分数分别为-2.5,-2.5,-2.2,-3.1,-4.0,-5.7。对于20、57、31、65、44号实验室其Z比分数分别为2.6,2.4,3.8,3.8,3.3。Z比分数绝对值大于2的实验室总数11家与图中离群实验室一致,说明采用该2种分析方法有相似之处,均可实现对离群值的识别。
2.5镉数据分布特征
根据参加实验室镉的测试结果数据的相似性,通过聚类分析可以划分为2个组,2-1和2-2。该组又可划分为2-1-1、2-1-2,2-1-1可进一步细分为2-1-1-1、2-1-1-2,在此基础上仍可细分,如图2所示。分析数据可知,2-1-1-1的数据范围为0.065~0.078mg/kg,2-1-1-2组主要集中在0.081~0.086mg/kg,2-1-2只包括22号实验室,为0.050 mg/kg。其余实验室划分为2-2号,包括29、39、30、23、53、36号实验室,测定结果大于0.098mg/kg,其Z比分数分别为4.61、4.55、4.43、5.11、4.95。表4中稳健统计方法Z比分数绝对值大于2的实验室总数10家,不仅包括了图2中2-2组,也包括了2-1-2组以及2-1-1-2组的9号、31号、25号实验室。从该图中聚类分析结果可以看出,稳健统计方法结合聚类分析可以对实验室的测试结果更好地进行判断,尤其是当实验室测定结果处在临界点附近时。
关键词聚类分析;稳健统计方法;计量;对比
中图分类号 O212.1 文献标识码A文章编号 1007-5739(2009)06-0258-06
聚类分析(Cluster Analysis)是进行数据统计分析的一类重要工具[1-5],广泛应用于商业、经济、医药等领域,通过数据分类获得有用的统计信息,是多元统计分析的一个重要分支,根据分类对象的数量指标,定量地确定分类对象之间的相似关系并进行分类。聚类分析中应用广泛的是层次聚类法和K-Means算法。能力验证,作为我国实现量值溯源并确保分析实验室数据可靠、准确一致的重要工具,发挥着日益广泛和深入的作用[6]。在数据处理上一般采用稳健统计方法进行评价[7-11]。
稳健统计方法是世界各国计量机构在组织能力验证或国际比对中常用的统计方法,该方法在数据非正态分布或存在离群值时优势明显,Z比分数为其评价的重要指标[12]。其缺点是提供信息较少,缺乏深入和细致的描述,无法描述实验室数据相关性之间的联系。当测试对象为多元素或多组分时,只能单个项目分析,缺乏整体判断和描述,无法适应比对内容与对象不断增加的趋势[13]。
本文尝试将聚类分析应用在能力验证数据处理中,结合稳健统计方法,以获得更加细致全面的数据信息。通过把不同实验室测量数据划分为不同的集合和小组,方便对能力验证数据的分析和比对原因的查找,可对不同实验室的共性问题,如测量方法的比较等进行深入的探讨,为化学计量领域理论和实践中深入处理实验数据提供方法基础和探讨依据。通过文献检索,目前国内外尚无类似报道。
本文将聚类分析与稳健统计方法结合起来,对CNAS T0402粮食中重金属铅、镉含量测定的数据进行处理。中国合格评定国家认可委员会于2008年组织的全国范围的一次能力验证,由中国计量科学研究院组织实施,其目的是了解我国目前粮食检测机构实际的测量水平和潜在问题。研究表明,该方法可以分层次、多角度对数据进行分析,具有广泛的应用价值。
1材料与方法
1.1能力验证样品的制备
此次能力验证样品选用河南省重金属污染区生长的小麦,经清理除杂,去除糠、麸皮以及子实、胚芽,用鄂式破碎机初碎,将候选物在70℃烘干24h,去除水分。用高铝球磨机研磨36~48h,使样品99%以上通过80目。制备好的样品装入清洁塑料桶中,封口保存。经均匀性检验合格后混匀分装。用Co60辅照灭活,置于干燥阴凉处保存。
1.2样品的均匀性和稳定性
样品采用等离子体发射光谱法(ICPOES)和等离子体质谱法(ICPMS)进行均匀性和稳定性检验。在均匀性检验中,随机抽取15瓶样品,每瓶在上部和底部取2个样品。每个样品准确称取0.2g,加入5mL浓硝酸,用微波消解炉进行消解。完毕待冷却后,转移到洁净塑料瓶中,加入In或Y内标,上机测试。经F分析,样品中Pb、Cd均匀性良好。经t检验,样品稳定性检验良好。
1.3推荐方法
此次能力验证推荐方法为GB/T5009.12-2003食品中铅的测定方法和GB/T5009.15-2003食品中镉的测定方法。
1.4数据统计分析方法和软件
该研究选用SPSS软件进行数据处理。分层聚类分析子模块,聚类法采用组间连接法(Between Groups Linkage),测度方法选择欧氏距离平方(Squared Euclidean Distance),即2项之间的距离是每个变量值之差的平方和[14]。
2结果与讨论
2.1采用分析方法的统计情况
在此次能力验证中,共采用4种测量方法,分别是原子吸收分析方法(AAS)、等离子体发射光谱法(ICPOES)、等离子体质谱法(ICPMS)、原子荧光光谱法(AFS)(见表1)。综合分析,AAS、ICP、ICPMS之间的比例接近7:1:1。这说明原子吸收作为国家标准GB/T5009.12-2003和GB/T5009.15-2003的推荐方法,在实验室分析领域仍占据相当的比重。
2.3能力验证统计结果
能力验证结果见表3,采用稳健变异系数和Z比分数法进行评价,其评价标准为|Z|≤2为满意结果;2<|Z|<3为有问题的结果;|Z|≥3为不满意(离群)结果。从表3可知,对铅和镉元素,分别有6家实验室和7家实验室Z比分数离群,约占参加实验室总数的1/10。有人认为当参加实验室较多时,计算出的标准差可能偏小,易导致部分实验室的Z比分数大于2,而被误判为有问题或不满意[16]。
2.4铅数据分布特征
根据能力验证项目各实验室对小麦粉中铅的测试结果之间的相似程度,用聚类分析进行分组(见图1)。由图1可知,参加实验室可以划分为2个组,其中22、39、25、3、49、50号为1组,标记为1~2,铅测定结果为0.60~1.04mg/kg,与表3所列中位值相比偏低;其余实验室为1组1-1。该组又可划分为1-1-1、1-1-2,分别可进一步细分为1-1-1-1、1-1-1-2和1-1-2-1、1-1-2-2共4组,在此基础上仍可细分。分析数据可知,1-1-1-1的数据范围为1.24~1.33mg/kg,1-1-1-2组主要集中在1.41~1.55mg/kg。1-1-2的数据范围为1.61~1.81mg/kg。结合表3数据,对于22、39、25、3、49、50号实验室,其Z比分数分别为-2.5,-2.5,-2.2,-3.1,-4.0,-5.7。对于20、57、31、65、44号实验室其Z比分数分别为2.6,2.4,3.8,3.8,3.3。Z比分数绝对值大于2的实验室总数11家与图中离群实验室一致,说明采用该2种分析方法有相似之处,均可实现对离群值的识别。
2.5镉数据分布特征
根据参加实验室镉的测试结果数据的相似性,通过聚类分析可以划分为2个组,2-1和2-2。该组又可划分为2-1-1、2-1-2,2-1-1可进一步细分为2-1-1-1、2-1-1-2,在此基础上仍可细分,如图2所示。分析数据可知,2-1-1-1的数据范围为0.065~0.078mg/kg,2-1-1-2组主要集中在0.081~0.086mg/kg,2-1-2只包括22号实验室,为0.050 mg/kg。其余实验室划分为2-2号,包括29、39、30、23、53、36号实验室,测定结果大于0.098mg/kg,其Z比分数分别为4.61、4.55、4.43、5.11、4.95。表4中稳健统计方法Z比分数绝对值大于2的实验室总数10家,不仅包括了图2中2-2组,也包括了2-1-2组以及2-1-1-2组的9号、31号、25号实验室。从该图中聚类分析结果可以看出,稳健统计方法结合聚类分析可以对实验室的测试结果更好地进行判断,尤其是当实验室测定结果处在临界点附近时。