论文部分内容阅读
摘 要: “树法”聚类,就是“最大树方法”。这种方法目前虽已具备了坚实的理论基础,但 不少学者对这种聚类方法在体育统计中的运用描述得有限。本文对这种聚类方法在体育统计 中的运用做了进一步的改进和完善,旨在让读者能更快的掌握和运用此类方法解决有关体育 统计方面的实际问题。
关键词:项目指标;聚类;最大树方法
中图分类号:G80-32文献标识码:A文章编号 :1007-3612(2010)01-0067-03
A Feasibility Study on the Application of Maximal Tree Method inSport Science
FENG Dazhi
(Liaoning Medical University,Jinzhou 121000,Liaoning China)
Abstract: Maximal tree clustering method has a solid theoretic foundation and ha s been applied in various fields.However, its applications in sport statisticsare still inadequate. In this paper, the application of the maximal tree cluste ring method in sport statistics is further improved to enable the audiences to g rasp and apply it to solve the practical issue in sport statistics more efficien tly.
Key words: item index; clustering; maximal tree clustering method
“一种新的聚类方法的提出以及它与其他常用聚类分析方法的模拟对比”[1]中所 提出的“ 新的聚类方法”,最早是由吴望明同志于1979年提出[2],首先引进体育统计中, 有《体育 统计方法辅导》[3],后来又出现了“体育统计中的最大树方法”[4]。文 献[1]着重于提出 这种新的聚类方法在体育运动研究中的应用,并且将此法与其他常用聚类分析方法做模拟对 比,说明这种方法效果很好,在实际中具有很强的适用性[5-11],但对具体的方法 步骤并没有详细地介绍。
所谓最大树方法就是构造一个特殊的图,以所有被分类的对象为顶点,两个顶点间可以 连一条边。具体画法是先画出顶点集合中的某一个i,然后按相关系数Rij从大到小的顺序依 次连边,并要求不产生回路,直到所有的顶点都被连通为止,这样便得到一个最大的树,实 际上是一棵“赋权”树。然后对最大的树取截集截成互不连同的几棵子树,从而完成分类。 上述画法中是可以从任意一个顶点出发的,所画成的最大树也不是唯一的,虽然取了截集之 后,所得的子树是一样的,但在使用中仍然不免有盲目之感,于是文献⑶、⑷在⑵的基础上 进行加工总结出具体步骤:预选元素,画顶连边标权,割断回路,补齐顶点,截树聚类,画 谱系图。本文将对这种方法的步骤加以充实,结合实例介绍“树法”聚类的具体步骤,以便 读后能立刻掌握运用。
1 操作过程
实例:对十项锻炼指标的聚类问题,表一是它们的相关系数阵。其中,X1=1 000 m跑 ,X2=5 min往返跑,X3=爬竿,X4=举重,X5=跳远,X6=50 m跑,X7=引体向上 ,X8=立定跳远,X9=立卧撑,X10=沙袋掷远。[12]
第一步:选元素(权数Rij=Xi与Xj的相关系数)。按Rij从小到大预选9个 元素(因为相关系数Rij越大,指标Xi与Xj越相近,也应该越先聚为一类。因为有十 项指标,所以预选9个元素)。R4,10=0.78, R1,2=0.77, R5,6=0.76 , R 3,2=0.73, R9,6=0.73, R8,6=0.71, R7,10=0.7, R8,9 =0.68,R5,9=0.66。
第二步:画顶,连边,标权(每项指标表示一个顶点,两顶点连线表示一条边)按预选 的元素形成图1。
第三步:补顶补边。图1中代表十项指标的顶点都已经出现,故不需补顶。但三组数值分离 ,故需补边。
补边的方法是:
1) 从(X1,X2,X3)与(X4,X7,X10)的相关系数矩阵中选取最大的元 素(表2),R1,4=0.35,用虚线连①与④,权为0.35。
2( 从(X1,X2,X3)与(X5,X6,X8,X9)的相关系数矩阵中选取最大的 元素(表3),R1,9=0.55,用虚线连①与⑨,权为0.55。
3) 从(X4,X7,X10)与(X5,X6,X8,X9)的相关系数矩阵中选取最 大的元素(表4),R4,8=0.24,用虚线连④与⑧,权为0.24。
完成以上三步之后形成图2
第四步:割断回路,把回路中权数最小的边割断,使途中无回路,从而形成一棵“最大 树”割法是:1) ⑤,⑥,⑨回路中,割断⑤和⑨的连线;
2) ⑥,⑧,⑨回路中,割断⑧和⑨的连线;
3) ①,④,⑧,⑨回路中,割断④和⑧的连线,最后行成图3。
第五步:截树聚类。如把聚类水平定为0.70,即“树”中所有Rij<0.70的边都 被 截断,则形成3棵子树,也就是十项指标应聚为3类:{X1,X2,X3},{X4,X7,X 10},{X5,X6,X8,X9},如图4。
以上五步就是“树法”聚类的具体步骤。
2 应用案例
该例是《体育统计方法》中的一个实例[13],内容如下:要把身高(X1),体重 (X2),50 m跑(X3),立定跳远(X4),引体向上(X5),1 000 m跑 (X6),灵巧(X7),意志力(X8)等八项指标分成几类,用统计方法或评分方法已 经得到关系矩阵(表5)。
按照上述五个步骤对八项指标进行分类。
第一步:预选元素,得到的7个元素是R1,2=0.77, R3,4=0.75, R3,6= 0.70,R2,3=0.60, R2,4=0.60, R2,6=0.60,R1,4=0.54。
第二步:画顶,连边,标权,形成图5。
第三步:补顶补边。图5中没有分离的树枝,但尚缺代表指标X5,X7,X8的顶点,所 以需要补顶补边。
1) 补⑤,看关系矩阵中第5行(即X5与其他指标的关系矩阵)最大的元素是R5,2 =R2,5=0.54,画⑤,与②用虚线连边,标0.54。
2) 补⑦,看关系矩阵中第7行最大的元素是R7,2=R2,7=0.50(用R7,5 =R5,7=0.50也可以),画⑦,与②用虚线连边,标0.50。
3) 补⑧,看关系矩阵中第8行最大的元素是R8,5=R8,7=0.30。画⑧,与⑤用 虚线连边(或与⑦连边),标0.30。形成图6。
第四步:割断回路
1) ①②④回路中,R1,4=0.54最小,割断①④的边;
2) ②③⑥回路中,R2,3=R2,6=0.60最小,割断②⑥的边(或②③的边);
3) ②③④回路中,R2,3=R2,4=0.60最小,割断②④的边(或②③的边);
4) 形成了没有回路的最大树,如图7。
第五步:截树聚类。如果聚类水平取为0.70,则割断⑤⑧,⑤②,②⑦,②③的边,如图8 所示。
这样就得到了这八项指标聚类的结果,八项指标被分成了五类:{X1,X2},{X3,X 4,X6},{X5},{X7},{X8}。
3 结 论
本文改进并完善了“树法”聚类的实际操作过程,实践证明在体育统计中,这种方法效 果很好,在实际中具有很强的应用性。对类似问题进行聚类时,按上述给出的步骤进行操作 即可。
特别指出的是,回路可以在出现时及时割断,不必在补顶补边之后统一处理,而且在选 元素、连边、割断回路时,可能有几种方式能达到同样的效果,所以“树”的连法可能不同 ,最大的树也不是唯一的。但是,按给定的聚类水平,截得的子树一定是一样的,也就是说 聚类谱系图是一致的,分类的结果相同。
参考文献:
[1] 黄定保.一种新的聚类方法的提出以及它与其他常用聚类分析方法的模拟对 比[J].体育科学,1989(3):40.
[2] 贺仲雄.模糊数学及其应用[M].天津:天津科技出版社,1992,3.
[3] 岳长仁,等.体育统计方法辅导[J].锦州市中小学体育学会,锦州市教育局体育卫 生科,1990(7).
[4] 朱长喜,翟铁倪.体育统计中的最大树方法[J].锦州师专学报,1989(3).
[5] 沈名顺.运用聚类方法指导体育教学[J].武汉体育学院学报,2003(5).
[6] 陈志强.浙江省大学女生体质评价研究[J].天津体育学院学报,2003(2):69-72.
[7] 王文初.聚类分析在男子十项全能测试成绩分析中的应用[J].常德师范学院学报(自 然科学版),2003(1):76-78.
[8] 贺华.基于模糊聚类分析的大学生体育素质综合评估[J].山东体育科技,2004(3):9 8-101.
[9] 刘琦,林怀中,陈纯.模糊聚类的最大树算法在web页面分类中的应用[J].计算机应 用研究,2004(11).
[10] 陈基漓,牛秦洲.最大树模糊聚类算法在商务网站中的应用[J].微计算机信息,200 6(16).
[11] 李成刚,刘赞波,曾庆光.一种基于模糊聚类的构造进化树方法[J].计算机应用, 2009(3).
[12] 丛湖平.体育统计[M].北京:高等教育出版社,1998,7.
[13] 王路德.体育统计方法[J].湖北省体育科学研究院.
关键词:项目指标;聚类;最大树方法
中图分类号:G80-32文献标识码:A文章编号 :1007-3612(2010)01-0067-03
A Feasibility Study on the Application of Maximal Tree Method inSport Science
FENG Dazhi
(Liaoning Medical University,Jinzhou 121000,Liaoning China)
Abstract: Maximal tree clustering method has a solid theoretic foundation and ha s been applied in various fields.However, its applications in sport statisticsare still inadequate. In this paper, the application of the maximal tree cluste ring method in sport statistics is further improved to enable the audiences to g rasp and apply it to solve the practical issue in sport statistics more efficien tly.
Key words: item index; clustering; maximal tree clustering method
“一种新的聚类方法的提出以及它与其他常用聚类分析方法的模拟对比”[1]中所 提出的“ 新的聚类方法”,最早是由吴望明同志于1979年提出[2],首先引进体育统计中, 有《体育 统计方法辅导》[3],后来又出现了“体育统计中的最大树方法”[4]。文 献[1]着重于提出 这种新的聚类方法在体育运动研究中的应用,并且将此法与其他常用聚类分析方法做模拟对 比,说明这种方法效果很好,在实际中具有很强的适用性[5-11],但对具体的方法 步骤并没有详细地介绍。
所谓最大树方法就是构造一个特殊的图,以所有被分类的对象为顶点,两个顶点间可以 连一条边。具体画法是先画出顶点集合中的某一个i,然后按相关系数Rij从大到小的顺序依 次连边,并要求不产生回路,直到所有的顶点都被连通为止,这样便得到一个最大的树,实 际上是一棵“赋权”树。然后对最大的树取截集截成互不连同的几棵子树,从而完成分类。 上述画法中是可以从任意一个顶点出发的,所画成的最大树也不是唯一的,虽然取了截集之 后,所得的子树是一样的,但在使用中仍然不免有盲目之感,于是文献⑶、⑷在⑵的基础上 进行加工总结出具体步骤:预选元素,画顶连边标权,割断回路,补齐顶点,截树聚类,画 谱系图。本文将对这种方法的步骤加以充实,结合实例介绍“树法”聚类的具体步骤,以便 读后能立刻掌握运用。
1 操作过程
实例:对十项锻炼指标的聚类问题,表一是它们的相关系数阵。其中,X1=1 000 m跑 ,X2=5 min往返跑,X3=爬竿,X4=举重,X5=跳远,X6=50 m跑,X7=引体向上 ,X8=立定跳远,X9=立卧撑,X10=沙袋掷远。[12]
第一步:选元素(权数Rij=Xi与Xj的相关系数)。按Rij从小到大预选9个 元素(因为相关系数Rij越大,指标Xi与Xj越相近,也应该越先聚为一类。因为有十 项指标,所以预选9个元素)。R4,10=0.78, R1,2=0.77, R5,6=0.76 , R 3,2=0.73, R9,6=0.73, R8,6=0.71, R7,10=0.7, R8,9 =0.68,R5,9=0.66。
第二步:画顶,连边,标权(每项指标表示一个顶点,两顶点连线表示一条边)按预选 的元素形成图1。
第三步:补顶补边。图1中代表十项指标的顶点都已经出现,故不需补顶。但三组数值分离 ,故需补边。
补边的方法是:
1) 从(X1,X2,X3)与(X4,X7,X10)的相关系数矩阵中选取最大的元 素(表2),R1,4=0.35,用虚线连①与④,权为0.35。
2( 从(X1,X2,X3)与(X5,X6,X8,X9)的相关系数矩阵中选取最大的 元素(表3),R1,9=0.55,用虚线连①与⑨,权为0.55。
3) 从(X4,X7,X10)与(X5,X6,X8,X9)的相关系数矩阵中选取最 大的元素(表4),R4,8=0.24,用虚线连④与⑧,权为0.24。
完成以上三步之后形成图2
第四步:割断回路,把回路中权数最小的边割断,使途中无回路,从而形成一棵“最大 树”割法是:1) ⑤,⑥,⑨回路中,割断⑤和⑨的连线;
2) ⑥,⑧,⑨回路中,割断⑧和⑨的连线;
3) ①,④,⑧,⑨回路中,割断④和⑧的连线,最后行成图3。
第五步:截树聚类。如把聚类水平定为0.70,即“树”中所有Rij<0.70的边都 被 截断,则形成3棵子树,也就是十项指标应聚为3类:{X1,X2,X3},{X4,X7,X 10},{X5,X6,X8,X9},如图4。
以上五步就是“树法”聚类的具体步骤。
2 应用案例
该例是《体育统计方法》中的一个实例[13],内容如下:要把身高(X1),体重 (X2),50 m跑(X3),立定跳远(X4),引体向上(X5),1 000 m跑 (X6),灵巧(X7),意志力(X8)等八项指标分成几类,用统计方法或评分方法已 经得到关系矩阵(表5)。
按照上述五个步骤对八项指标进行分类。
第一步:预选元素,得到的7个元素是R1,2=0.77, R3,4=0.75, R3,6= 0.70,R2,3=0.60, R2,4=0.60, R2,6=0.60,R1,4=0.54。
第二步:画顶,连边,标权,形成图5。
第三步:补顶补边。图5中没有分离的树枝,但尚缺代表指标X5,X7,X8的顶点,所 以需要补顶补边。
1) 补⑤,看关系矩阵中第5行(即X5与其他指标的关系矩阵)最大的元素是R5,2 =R2,5=0.54,画⑤,与②用虚线连边,标0.54。
2) 补⑦,看关系矩阵中第7行最大的元素是R7,2=R2,7=0.50(用R7,5 =R5,7=0.50也可以),画⑦,与②用虚线连边,标0.50。
3) 补⑧,看关系矩阵中第8行最大的元素是R8,5=R8,7=0.30。画⑧,与⑤用 虚线连边(或与⑦连边),标0.30。形成图6。
第四步:割断回路
1) ①②④回路中,R1,4=0.54最小,割断①④的边;
2) ②③⑥回路中,R2,3=R2,6=0.60最小,割断②⑥的边(或②③的边);
3) ②③④回路中,R2,3=R2,4=0.60最小,割断②④的边(或②③的边);
4) 形成了没有回路的最大树,如图7。
第五步:截树聚类。如果聚类水平取为0.70,则割断⑤⑧,⑤②,②⑦,②③的边,如图8 所示。
这样就得到了这八项指标聚类的结果,八项指标被分成了五类:{X1,X2},{X3,X 4,X6},{X5},{X7},{X8}。
3 结 论
本文改进并完善了“树法”聚类的实际操作过程,实践证明在体育统计中,这种方法效 果很好,在实际中具有很强的应用性。对类似问题进行聚类时,按上述给出的步骤进行操作 即可。
特别指出的是,回路可以在出现时及时割断,不必在补顶补边之后统一处理,而且在选 元素、连边、割断回路时,可能有几种方式能达到同样的效果,所以“树”的连法可能不同 ,最大的树也不是唯一的。但是,按给定的聚类水平,截得的子树一定是一样的,也就是说 聚类谱系图是一致的,分类的结果相同。
参考文献:
[1] 黄定保.一种新的聚类方法的提出以及它与其他常用聚类分析方法的模拟对 比[J].体育科学,1989(3):40.
[2] 贺仲雄.模糊数学及其应用[M].天津:天津科技出版社,1992,3.
[3] 岳长仁,等.体育统计方法辅导[J].锦州市中小学体育学会,锦州市教育局体育卫 生科,1990(7).
[4] 朱长喜,翟铁倪.体育统计中的最大树方法[J].锦州师专学报,1989(3).
[5] 沈名顺.运用聚类方法指导体育教学[J].武汉体育学院学报,2003(5).
[6] 陈志强.浙江省大学女生体质评价研究[J].天津体育学院学报,2003(2):69-72.
[7] 王文初.聚类分析在男子十项全能测试成绩分析中的应用[J].常德师范学院学报(自 然科学版),2003(1):76-78.
[8] 贺华.基于模糊聚类分析的大学生体育素质综合评估[J].山东体育科技,2004(3):9 8-101.
[9] 刘琦,林怀中,陈纯.模糊聚类的最大树算法在web页面分类中的应用[J].计算机应 用研究,2004(11).
[10] 陈基漓,牛秦洲.最大树模糊聚类算法在商务网站中的应用[J].微计算机信息,200 6(16).
[11] 李成刚,刘赞波,曾庆光.一种基于模糊聚类的构造进化树方法[J].计算机应用, 2009(3).
[12] 丛湖平.体育统计[M].北京:高等教育出版社,1998,7.
[13] 王路德.体育统计方法[J].湖北省体育科学研究院.