论文部分内容阅读
摘要:基于各班整体学习成绩,建立主成分分析模型,共收集8项指标,利用Borda数法对班级整体成绩情况建立合理的评价体系。为检验指标间重叠信息是否影响判断,建立熵权改进的密切值模型再次评判
关键词:主成分分析;熵权改进密切值模型;整体成绩
中图分类号:G647 ?文献标识码:A ??文章编号:1003-2177(2018)07-0000-00
现在的教学工作者和教务管理者,面对学生的各种成绩数据,大多数管理者只停留在单一的成绩查询上,导致许多数据资源的浪费。如何准确定量描述一个班的整体学习成绩情况,科学合理地评价班级学生的成绩情况和教学工作中存在的问题,成为了教育工作中普遍面临的难题。
1 问题分析
班级整体成绩情况排序可以由多个评价标准进行综合评价,标准可以有:表示班级总体考试水平的成绩均值;表示班级学习分化程度的成绩标准差;表示班级每位同学在年级排名的平均排名的班级均排名等,为使所有指标保持同向性,即指标值越大班级整体情况越好,需对做取负处理或归一化处理。而这些指标中不可避免地存在一些联系,为解决这一问题,可以选用主成分分析法以最少的信息丢失为前提,将众多的原指标综合成较少几个综合指标。而后验证主成分分析模型所得结果的准确性采用基于熵权的改进密切值模型从新计算班级排名。
2 模型建立
班级整体成绩情况排序可以由多个评价标准综合评价,在本题中班级整体成绩的评价标准可以有:成績均值,表示班级总体考试水平,均值越大班级整体情况越好;成绩标准差,表示班级学习分化程度,标准差越小班级整体情况越好;班级均排名,即班级每位同学在年级排名的平均排名,排名越靠前班级整体情况越好;班级占年级前50名人数,人数越多班级整体情况越好;班级占年级前100名人数,人数越多班级整体情况越好;班级占年级前150名人数,人数越多班级整体情况越好;班级优秀率,即班级优秀成绩人数占年级人数的比率,比率越大班级整体情况越好;班级及格率,即班级及格成绩人数占年级人数的比率,比率越大班级整体情况越好。
为使所有指标保持同向性,即指标值越大班级整体情况越好,需对、做取负处理。为处理这些两两指标中存在一定联系的综合评价类问题,可以选用主成分分析法以最少的信息丢失为前提,将众多的原指标综合成较少几个综合指标。
2.1主成分评价模型的建立
在实际生活中,每个指标的量纲均不相同,所以在计算之前应先消除量纲的影响,即需对原始数据标准化,做如下变换:
其中,和的具体表达式如下:
,
2.1.1计算协方差矩阵
计算样本数据的协方差矩阵:,其中的表达式为:
2.1.2求出协方差矩阵的特征值及相应的正交化单位特征向量
协方差矩阵的大于1的特征值,就是前个主成分对应的方差,对应的单位特征向量就是主成分的关于原变量的系数,则原变量的第的主成分为:
然后,根据主成分的方差(信息)贡献率用来反映信息量的大小。其中,的计算表达式如下:
2.1.3选择主成分
最终要选择几个主成分,即中的确定是通过方差(信息)累计贡献率来确定:
当累计贡献率大于85%时,就认为能足够反映原来变量的信息,对应的就是抽取的前个主成分。
2.1.4计算主成本荷载
主成分荷载是反映主成分与原指标之间的相互关联程度,原指标在诸主成分上的荷载为:
2.1.5计算主成分得分
计算成绩样本数据在个主成分上的得分如下:
2.1.6 计算主成分权重
计算样本在个主成分上的权重:
2.1.7 计算总评分
根据上述各个样本在个主成分上的得分以及权重计算在综合指标下的总评分,得到结果如下:
上述主成分分析模型已完成各班级对每次成绩的评分,由大到小排序即得到了每次考试的各班排名,而为得到各班近七次考试的综合排名利用决策论中的数法来确定综合排序方案。记第次考试的排序方案中排在班级后面的站点个数为,则班级的数为:
最终,根据数大小进行排序便得到了各班近七次考试的综合排名。
2.2基于熵权改进密切值模型的建立
由于主成分分析模型在处理时对多个主成分进行加权综合会降低评价函数区分的有效度,且该方法易受指标间的信息重叠影响。为验证主成分分析模型所得结果的准确性采用基于熵权的改进密切值模型从新计算班级排名。
由于熵权值对样本数量存在较高要求,即若样本数量不够就无法很好描述指标离散性。为增加样本数量将每个班7次考试的成绩当作7个班一次考试的成绩,这样样本数量就达到了42个。具体步骤如下:
2.2.1 建立原始数据指标矩阵
设班级整体情况评价的指标为个,其总指标数列为。选取待评价单元共为个,则有。连同个评价指标的级标准,这样就构成了个样本与个评价指标的初始矩阵:
2.2.2 有量纲矩阵模型的规范化
由于初始矩阵中各评价指标的量纲、数量级及指标优劣的取向存在较大差异,故需对初始矩阵数据做规范化处理。模型中采用改进后的目标差值率法进行规范化处理公式如下:
其中,表示第评价单元的第个指标评价值;为第个评价指标的目标值,即正向指标取第个评价指标中评价单元评价标准最大值,正向指标取第个评价指标中评价单元评价标准最小值;为第评价单元的第个指标的无量纲化评价值。由此得到无量纲化的样本矩阵,要求如下:
2.2.3 构造虚拟的最优情况班级和最劣情况班级
则为虚拟的各项最优班级,为为虚拟的各项最劣班级。
2.2.4用熵权值法确定各评价指标权重 将由个样本与个指标构成的初始班级情况矩阵进行标准化处理。对表达式有如下要求:
由此得到标准化矩阵:
根据斯梯林公式计算,可得第项指标的信息熵值为:
其中,常数与系统样本数有关,其表达式为:
第项指标的信息效用价值取决于该指标的信息熵与1的差值,则第项指标的权重为:
2.2.5 计算密切值
采用欧式距离计算待评价班级与虚拟最优班级的距离和虚拟最劣班级距离。表达式为:
则可得最优密切值为:
2.2.6 改进密切值法进行班级整体成绩评价原则
班级成绩评价中的多个指标转化为能从总体上衡量班级成绩优劣的单指标。一般而言,当越小与“优越点”就越密切,与“最劣点”就越疏远,同时说明班级整体成绩情况越好。时,班级整体成绩最好,即“最优点”。
最后,由于所得结果是虚拟42个班成绩情况,将其中每个班级的七次考试情况相加便得到该班级近期几次考试总体情况。因此,总指标值越小,班级总体成绩越好,反之越差。
3模型的求解
在实际生活中,每个指标的量纲均不相同,所以在计算之前应先消除量纲的影响,即需对原始数据标准化,利用主成分分析模型求得各成分的权重计算班级每轮考试的总评分结果如表1。
如1表可知,每轮考试的总评分越大,說明本次考试班级的成绩越优秀。同时,直观的观察到1班和6班在7次考试中的总评分都是大于零,相对于其他四个班级成绩更优秀。而2班和4班的总评分均小于零,相比下成绩比较差。
根据上面每班的总评分对每轮考试进行从大到小的排序得到每轮的班级排名。然后,利用决策论中的数法来确定得到六个班级在七次考试中总评的数。并进行排序,得到了各班近七次考试的综合排名,结果如表2。
将班级本次考试年级排名后面的班级个数作为评分,然后累加七次考试评分得到数,对其排序得到班级的整体排名。其中,6班和1班分别排在前二名,2班和4班分别排在最后两名,与上文中各班每轮考试的总评分整体分析结果一致,故的数法得到的排名符合实际。
在上述的排名方法中,各个主成分的权重具有一定的主观想法评价。为了消除主观意向的影响并对上述结果进行验证,利用最优密切值来表示班级综合评价,从而得到各个班级的总排名如表3。
4结果分析
对于本题,利用主成分分析法得到权重计算总评分,然后用数法得到班级排名。这种方法具有一定的主观意识,为了更客观得到班级的排名,利用每个班级的最优密切值进行排序,越小说明班级的成绩越优秀,从而得到班级的排名。两种方法对比发现,各个班级近期成绩排名结果一致,因此,最终排名第一位6班,最后一名为4班,各个班级排名符合客观实际情况。
参考文献
[1]王晖,陈丽,陈垦,薛漫清,梁庆.多指标综合评价方法及权重系数的选择[J].广东药学院学报,2007,(05):583-589.
[2]刘臣辉,吕信红,范海燕.主成分分析法用于环境质量评价的探讨[J].环境科学与管理,2011,36(03):183-186.
[3]吕洪波.功效系数法在企业绩效评价中的运用[J].内蒙古科技与经济,2009,(09):69-71.
[4]金鑫,李扬,孙国庆,郝齐心.学生成绩评价数学建模[J].辽宁工程技术大学学报(自然科学版),2010,29(S1):176-178.
[5]范小萍,陈盛,张江山.基于熵权的改进密切值法在水质综合评价的应用[J].环境保护与循环经济,2012,32(04):42-45.
作者简介:张鸿睿(1996—),男,苗族,湖南吉首人,本科在读,研究方向:建筑工程。
Analysis of Class Learning Based on Principal Component and Close Comparison
ZHANG Hong-rui
(China Three Gorges University,Hunan Jishou 443000)
Abestract:Based on the overall performance of each class, a principal component analysis model is set up, 8 indexes are collected, and the Borda number method is used to establish a reasonable evaluation system for the overall grade of the class. In order to check whether the overlapping information of the index affects the judgment, the establishment of entropy weight improved osculating value model is re evaluated.
Key words:Principal component analysis;entropy weight improved osculating value model;overall score
关键词:主成分分析;熵权改进密切值模型;整体成绩
中图分类号:G647 ?文献标识码:A ??文章编号:1003-2177(2018)07-0000-00
现在的教学工作者和教务管理者,面对学生的各种成绩数据,大多数管理者只停留在单一的成绩查询上,导致许多数据资源的浪费。如何准确定量描述一个班的整体学习成绩情况,科学合理地评价班级学生的成绩情况和教学工作中存在的问题,成为了教育工作中普遍面临的难题。
1 问题分析
班级整体成绩情况排序可以由多个评价标准进行综合评价,标准可以有:表示班级总体考试水平的成绩均值;表示班级学习分化程度的成绩标准差;表示班级每位同学在年级排名的平均排名的班级均排名等,为使所有指标保持同向性,即指标值越大班级整体情况越好,需对做取负处理或归一化处理。而这些指标中不可避免地存在一些联系,为解决这一问题,可以选用主成分分析法以最少的信息丢失为前提,将众多的原指标综合成较少几个综合指标。而后验证主成分分析模型所得结果的准确性采用基于熵权的改进密切值模型从新计算班级排名。
2 模型建立
班级整体成绩情况排序可以由多个评价标准综合评价,在本题中班级整体成绩的评价标准可以有:成績均值,表示班级总体考试水平,均值越大班级整体情况越好;成绩标准差,表示班级学习分化程度,标准差越小班级整体情况越好;班级均排名,即班级每位同学在年级排名的平均排名,排名越靠前班级整体情况越好;班级占年级前50名人数,人数越多班级整体情况越好;班级占年级前100名人数,人数越多班级整体情况越好;班级占年级前150名人数,人数越多班级整体情况越好;班级优秀率,即班级优秀成绩人数占年级人数的比率,比率越大班级整体情况越好;班级及格率,即班级及格成绩人数占年级人数的比率,比率越大班级整体情况越好。
为使所有指标保持同向性,即指标值越大班级整体情况越好,需对、做取负处理。为处理这些两两指标中存在一定联系的综合评价类问题,可以选用主成分分析法以最少的信息丢失为前提,将众多的原指标综合成较少几个综合指标。
2.1主成分评价模型的建立
在实际生活中,每个指标的量纲均不相同,所以在计算之前应先消除量纲的影响,即需对原始数据标准化,做如下变换:
其中,和的具体表达式如下:
,
2.1.1计算协方差矩阵
计算样本数据的协方差矩阵:,其中的表达式为:
2.1.2求出协方差矩阵的特征值及相应的正交化单位特征向量
协方差矩阵的大于1的特征值,就是前个主成分对应的方差,对应的单位特征向量就是主成分的关于原变量的系数,则原变量的第的主成分为:
然后,根据主成分的方差(信息)贡献率用来反映信息量的大小。其中,的计算表达式如下:
2.1.3选择主成分
最终要选择几个主成分,即中的确定是通过方差(信息)累计贡献率来确定:
当累计贡献率大于85%时,就认为能足够反映原来变量的信息,对应的就是抽取的前个主成分。
2.1.4计算主成本荷载
主成分荷载是反映主成分与原指标之间的相互关联程度,原指标在诸主成分上的荷载为:
2.1.5计算主成分得分
计算成绩样本数据在个主成分上的得分如下:
2.1.6 计算主成分权重
计算样本在个主成分上的权重:
2.1.7 计算总评分
根据上述各个样本在个主成分上的得分以及权重计算在综合指标下的总评分,得到结果如下:
上述主成分分析模型已完成各班级对每次成绩的评分,由大到小排序即得到了每次考试的各班排名,而为得到各班近七次考试的综合排名利用决策论中的数法来确定综合排序方案。记第次考试的排序方案中排在班级后面的站点个数为,则班级的数为:
最终,根据数大小进行排序便得到了各班近七次考试的综合排名。
2.2基于熵权改进密切值模型的建立
由于主成分分析模型在处理时对多个主成分进行加权综合会降低评价函数区分的有效度,且该方法易受指标间的信息重叠影响。为验证主成分分析模型所得结果的准确性采用基于熵权的改进密切值模型从新计算班级排名。
由于熵权值对样本数量存在较高要求,即若样本数量不够就无法很好描述指标离散性。为增加样本数量将每个班7次考试的成绩当作7个班一次考试的成绩,这样样本数量就达到了42个。具体步骤如下:
2.2.1 建立原始数据指标矩阵
设班级整体情况评价的指标为个,其总指标数列为。选取待评价单元共为个,则有。连同个评价指标的级标准,这样就构成了个样本与个评价指标的初始矩阵:
2.2.2 有量纲矩阵模型的规范化
由于初始矩阵中各评价指标的量纲、数量级及指标优劣的取向存在较大差异,故需对初始矩阵数据做规范化处理。模型中采用改进后的目标差值率法进行规范化处理公式如下:
其中,表示第评价单元的第个指标评价值;为第个评价指标的目标值,即正向指标取第个评价指标中评价单元评价标准最大值,正向指标取第个评价指标中评价单元评价标准最小值;为第评价单元的第个指标的无量纲化评价值。由此得到无量纲化的样本矩阵,要求如下:
2.2.3 构造虚拟的最优情况班级和最劣情况班级
则为虚拟的各项最优班级,为为虚拟的各项最劣班级。
2.2.4用熵权值法确定各评价指标权重 将由个样本与个指标构成的初始班级情况矩阵进行标准化处理。对表达式有如下要求:
由此得到标准化矩阵:
根据斯梯林公式计算,可得第项指标的信息熵值为:
其中,常数与系统样本数有关,其表达式为:
第项指标的信息效用价值取决于该指标的信息熵与1的差值,则第项指标的权重为:
2.2.5 计算密切值
采用欧式距离计算待评价班级与虚拟最优班级的距离和虚拟最劣班级距离。表达式为:
则可得最优密切值为:
2.2.6 改进密切值法进行班级整体成绩评价原则
班级成绩评价中的多个指标转化为能从总体上衡量班级成绩优劣的单指标。一般而言,当越小与“优越点”就越密切,与“最劣点”就越疏远,同时说明班级整体成绩情况越好。时,班级整体成绩最好,即“最优点”。
最后,由于所得结果是虚拟42个班成绩情况,将其中每个班级的七次考试情况相加便得到该班级近期几次考试总体情况。因此,总指标值越小,班级总体成绩越好,反之越差。
3模型的求解
在实际生活中,每个指标的量纲均不相同,所以在计算之前应先消除量纲的影响,即需对原始数据标准化,利用主成分分析模型求得各成分的权重计算班级每轮考试的总评分结果如表1。
如1表可知,每轮考试的总评分越大,說明本次考试班级的成绩越优秀。同时,直观的观察到1班和6班在7次考试中的总评分都是大于零,相对于其他四个班级成绩更优秀。而2班和4班的总评分均小于零,相比下成绩比较差。
根据上面每班的总评分对每轮考试进行从大到小的排序得到每轮的班级排名。然后,利用决策论中的数法来确定得到六个班级在七次考试中总评的数。并进行排序,得到了各班近七次考试的综合排名,结果如表2。
将班级本次考试年级排名后面的班级个数作为评分,然后累加七次考试评分得到数,对其排序得到班级的整体排名。其中,6班和1班分别排在前二名,2班和4班分别排在最后两名,与上文中各班每轮考试的总评分整体分析结果一致,故的数法得到的排名符合实际。
在上述的排名方法中,各个主成分的权重具有一定的主观想法评价。为了消除主观意向的影响并对上述结果进行验证,利用最优密切值来表示班级综合评价,从而得到各个班级的总排名如表3。
4结果分析
对于本题,利用主成分分析法得到权重计算总评分,然后用数法得到班级排名。这种方法具有一定的主观意识,为了更客观得到班级的排名,利用每个班级的最优密切值进行排序,越小说明班级的成绩越优秀,从而得到班级的排名。两种方法对比发现,各个班级近期成绩排名结果一致,因此,最终排名第一位6班,最后一名为4班,各个班级排名符合客观实际情况。
参考文献
[1]王晖,陈丽,陈垦,薛漫清,梁庆.多指标综合评价方法及权重系数的选择[J].广东药学院学报,2007,(05):583-589.
[2]刘臣辉,吕信红,范海燕.主成分分析法用于环境质量评价的探讨[J].环境科学与管理,2011,36(03):183-186.
[3]吕洪波.功效系数法在企业绩效评价中的运用[J].内蒙古科技与经济,2009,(09):69-71.
[4]金鑫,李扬,孙国庆,郝齐心.学生成绩评价数学建模[J].辽宁工程技术大学学报(自然科学版),2010,29(S1):176-178.
[5]范小萍,陈盛,张江山.基于熵权的改进密切值法在水质综合评价的应用[J].环境保护与循环经济,2012,32(04):42-45.
作者简介:张鸿睿(1996—),男,苗族,湖南吉首人,本科在读,研究方向:建筑工程。
Analysis of Class Learning Based on Principal Component and Close Comparison
ZHANG Hong-rui
(China Three Gorges University,Hunan Jishou 443000)
Abestract:Based on the overall performance of each class, a principal component analysis model is set up, 8 indexes are collected, and the Borda number method is used to establish a reasonable evaluation system for the overall grade of the class. In order to check whether the overlapping information of the index affects the judgment, the establishment of entropy weight improved osculating value model is re evaluated.
Key words:Principal component analysis;entropy weight improved osculating value model;overall score