论文部分内容阅读
摘 要:NBA联赛是集竞技水平、商业运作最高境界于一身的职业篮球联赛,受到世界各地篮球爱好者的喜爱。在NBA联赛中每支球队都有自己独有的技术特点和战术体系,都会选择适合自身球队特点的阵容组合模式和进攻方式。金州勇士队连续四年打进总决赛,并三次获得总冠军。本文运用Logistic回归及有监督的决策树数据挖掘技术,对金州勇士队比赛取胜的影响因素进行分析。
关键词:NBA联赛;数据挖掘;因素分析
一.Logistic回归探究金州勇士队取胜指标
1.Logistic回归
Logistic回归为广义线性模型的一种,解决的是数据相响应变量取值非连续型,分布不是正态的情况。因变量Y为二元变量,取值为1或0[1]。在给定自变量的情况下,因变量的条件期望实际上就是在自变量的某种水平下取“1”的概率,即所关心事件发生的概率为:,因此,Logistic的模型表示为:
公式中 表示事件发生的概率。在做Logistic回归时,为使模型的形式更清楚,解释更方便,往往将上式做Logit 变换,即转化为如下形式:
该等式的左边是事件发生概率与不发生概率之比,当这个比值越大,说明事件越容易发生,它的取值范围在之间。
2.探究金州勇士队取胜指标
本文选取2014年至2018年金州勇士队连续四年打入NBA总决赛的四个赛季的数据,以比赛结果(result)作为二元变量,取胜为1,未取胜为0。以主客场(host),主场为1,客场为0。投篮命中率(shot),三分球投篮命中率(threepoint),罚球命中率(freeball),篮板个数(rebound),助攻个数(assistant),抢断个数(steal),失误个数(fault)以及每场失分情况(lose)作为自变量,进行Logistic回归,探究金州勇士队的取胜指标。结果如下:
由以上结果可知,在显著性水平为p=0.05 的情况下,是否在主场作战对于勇士队比赛是否取胜无显著影响。而投篮命中率,三分球命中率,罚球命中率,篮板,助攻,抢断都不同程度的对金州勇士队取得比赛的胜利起到正向作用,尤其投篮命中率及三分球命中率这两项,在勇士队缺少强力内线的情况下,进攻范围多数在三秒区以外,随着与篮筐的距离变远,保持高水平的投篮命中率就成为勇士队取胜最关键的因素。而拥有天才三分射手的勇士队,球队多数的战术是为斯蒂芬.库里以及克莱.汤普森创造外线的三分机会,因此三分球命中率也是勇士队想要取胜的重要因素。
失误以及每场比赛失分的增多对球队取得比赛的胜利起到负向作用。由于勇士队的主力整体阵容偏小,因此是NBA联盟中少数可以进行无限换防的球队,这样对其他球队的阵地进攻造成了很大的压力。所以其他球队想要在勇士队身上轻松拿分,最好的方式就是提高转换速度,用强硬的防守逼得勇士队的失误,不等勇士队阵地落位,抓住机会打防守反击,提高自己的进攻效率,以快制快。因此,勇士队想要取得比赛胜利,控制自身的失误也变得尤为重要。
二.决策树算法探究关键因素对球队取胜的影响概率
1.决策树算法
决策树是一树状结构,每一个叶节点对应着一个分类,非叶节点对应着某个属性上的划分,根据样本在该属性上的不同取值将其划分为若干个子集。ID3算法是最经典的决策树分类算法,基于信息熵来选择最佳测试属性。选择当前样本中具有最大信息增益值的属性作为测试属性,样本的划分则依据测试属性的取值进行[2]。测试属性有多少不同的取值就将样本集划分为多少子样本集,同时决策树上对应于该样本集的节点长出新的叶子节点。
设为个数据样本的集合。假定类别属性具有个不同的值:。设是中的样本数。对一个给定的样本,它总的信息熵为:
式中,为任意样本属于的概率,一般可用估计。
设一个属性具有个不同的值,利用属性将集合划分为个子集,其中包含了集合中属性取值的样本。若属性为测试属性,则这些子集就是从集合的节点生长出来的新的叶节点。設是子集中类别为的样本数,则根据属性划分样本的信息熵值为:
式中,是子集中类别为的样本的概率。
最后,用属性划分样本集后所得的信息增益为
显然越小,的值越大,说明选择测试属性对于分类提供的信息越大,选择之后对分类的不确定程度越小。属性的个不同的值对应样本集的个子集或分支,通过递归调用上述过程,生成其他属性作为节点的子节点和分支来生成整个决策树。
2.利用决策树算法探究关键因素对球队取胜概率的影响
选取第一章节8个变量作为ID3决策树算法的分类指标,将球队2014-2017前三个赛季,共308条数据作为数据实验集,探究关键因素对球队取胜概率的影响,结果如下:
由以上结果可知,当金州勇士队的每场比赛的投篮命中率大于44% 的时候,球队有83%的概率会取得比赛的胜利,当勇士队的投篮命中率小于44%而篮板球的个数大于50的时候,勇士队同样会有4%的概率取得比赛的胜利。投篮命中率下降,必然会导致篮板球数的增多,因此篮板球的拼抢对于没有强力中锋,主力阵容偏小的勇士队来说同样至关重要。最后便是勇士队的镇队之宝三分球了。即使投篮命中率低于44%,篮板球个数少于50个,但当勇士队的三分球命中率大于26%的时候,也依然有4%的概率取得比赛的胜利。
而当其他球队利用强有力的防守迫使勇士队投篮命中率下降,通过积极的拼抢获得更多的篮板球时,将会使得勇士队失分增加,加大球队获胜的概率。当勇士队的投篮命中率低于44%,篮板球个数少于50的时候,会有13%的概率输掉比赛。而在以上两种情况下且球队失分达到105分以上时,会100%的输掉比赛。此外,在勇士队的投篮命中率低于44%,篮板球个数少于50且失分小于105,但三分球命中率下降到26%以下,同样会输掉比赛。
现利用2017-2018一个赛季的102条数据作为数据测试集,对得出的分类结果进行验证,验证结果如下:
由验证结果可知,在102条数据当中,根据得到的分类结果,成功预测对80条数据,预测正确的概率为78.5%,从一定程度上验证了我们分析的正确性。
三.结语
金州勇士队是一支十分依赖于投篮命中率以及三分球命中率的队伍,其他球队要是想在与勇士队的交锋中占得先机,必须做好两点。第一点就是加强球队的防守强度训练。勇士队具有顶级的三分球射手,进攻多数集中于外线,因此会更多的应用挡拆战术,这就对其他球队的防守移动速度提出了很高要求。第二点就是加强球队篮板球的争抢。谁能更多掌握篮板球,谁就能更多掌握进攻的主动权,同时抑制对方的出手次数,降低对方的得分机率。勇士队主力阵容相对偏小,其他球队可以做针对性部署以及篮板卡位战术,争取在篮板球上取得优势。金州勇士队是一支有底蕴深厚的球队,分析只是基于历史比赛数据,真正的比赛瞬息万变,需要场上运动员拼搏努力,希望NBA联赛以及我们国内的CBA联赛都能越办越好。
参考文献
[1]吕晓玲等.大数据挖掘与统计机器学习[M].中国人民大学出版社,2016.
[2]张良均等.R语言数据分析与挖掘实战[M].机械工业出版社,2015.
作者简介:
会渊凯(1993.04-),男,回族,河北省承德市人,河北省燕山大学理学院应用统计专业硕士研究生在读,主要研究方向:数据分析与数据挖掘。
(作者单位:燕山大学理学院)
关键词:NBA联赛;数据挖掘;因素分析
一.Logistic回归探究金州勇士队取胜指标
1.Logistic回归
Logistic回归为广义线性模型的一种,解决的是数据相响应变量取值非连续型,分布不是正态的情况。因变量Y为二元变量,取值为1或0[1]。在给定自变量的情况下,因变量的条件期望实际上就是在自变量的某种水平下取“1”的概率,即所关心事件发生的概率为:,因此,Logistic的模型表示为:
公式中 表示事件发生的概率。在做Logistic回归时,为使模型的形式更清楚,解释更方便,往往将上式做Logit 变换,即转化为如下形式:
该等式的左边是事件发生概率与不发生概率之比,当这个比值越大,说明事件越容易发生,它的取值范围在之间。
2.探究金州勇士队取胜指标
本文选取2014年至2018年金州勇士队连续四年打入NBA总决赛的四个赛季的数据,以比赛结果(result)作为二元变量,取胜为1,未取胜为0。以主客场(host),主场为1,客场为0。投篮命中率(shot),三分球投篮命中率(threepoint),罚球命中率(freeball),篮板个数(rebound),助攻个数(assistant),抢断个数(steal),失误个数(fault)以及每场失分情况(lose)作为自变量,进行Logistic回归,探究金州勇士队的取胜指标。结果如下:
由以上结果可知,在显著性水平为p=0.05 的情况下,是否在主场作战对于勇士队比赛是否取胜无显著影响。而投篮命中率,三分球命中率,罚球命中率,篮板,助攻,抢断都不同程度的对金州勇士队取得比赛的胜利起到正向作用,尤其投篮命中率及三分球命中率这两项,在勇士队缺少强力内线的情况下,进攻范围多数在三秒区以外,随着与篮筐的距离变远,保持高水平的投篮命中率就成为勇士队取胜最关键的因素。而拥有天才三分射手的勇士队,球队多数的战术是为斯蒂芬.库里以及克莱.汤普森创造外线的三分机会,因此三分球命中率也是勇士队想要取胜的重要因素。
失误以及每场比赛失分的增多对球队取得比赛的胜利起到负向作用。由于勇士队的主力整体阵容偏小,因此是NBA联盟中少数可以进行无限换防的球队,这样对其他球队的阵地进攻造成了很大的压力。所以其他球队想要在勇士队身上轻松拿分,最好的方式就是提高转换速度,用强硬的防守逼得勇士队的失误,不等勇士队阵地落位,抓住机会打防守反击,提高自己的进攻效率,以快制快。因此,勇士队想要取得比赛胜利,控制自身的失误也变得尤为重要。
二.决策树算法探究关键因素对球队取胜的影响概率
1.决策树算法
决策树是一树状结构,每一个叶节点对应着一个分类,非叶节点对应着某个属性上的划分,根据样本在该属性上的不同取值将其划分为若干个子集。ID3算法是最经典的决策树分类算法,基于信息熵来选择最佳测试属性。选择当前样本中具有最大信息增益值的属性作为测试属性,样本的划分则依据测试属性的取值进行[2]。测试属性有多少不同的取值就将样本集划分为多少子样本集,同时决策树上对应于该样本集的节点长出新的叶子节点。
设为个数据样本的集合。假定类别属性具有个不同的值:。设是中的样本数。对一个给定的样本,它总的信息熵为:
式中,为任意样本属于的概率,一般可用估计。
设一个属性具有个不同的值,利用属性将集合划分为个子集,其中包含了集合中属性取值的样本。若属性为测试属性,则这些子集就是从集合的节点生长出来的新的叶节点。設是子集中类别为的样本数,则根据属性划分样本的信息熵值为:
式中,是子集中类别为的样本的概率。
最后,用属性划分样本集后所得的信息增益为
显然越小,的值越大,说明选择测试属性对于分类提供的信息越大,选择之后对分类的不确定程度越小。属性的个不同的值对应样本集的个子集或分支,通过递归调用上述过程,生成其他属性作为节点的子节点和分支来生成整个决策树。
2.利用决策树算法探究关键因素对球队取胜概率的影响
选取第一章节8个变量作为ID3决策树算法的分类指标,将球队2014-2017前三个赛季,共308条数据作为数据实验集,探究关键因素对球队取胜概率的影响,结果如下:
由以上结果可知,当金州勇士队的每场比赛的投篮命中率大于44% 的时候,球队有83%的概率会取得比赛的胜利,当勇士队的投篮命中率小于44%而篮板球的个数大于50的时候,勇士队同样会有4%的概率取得比赛的胜利。投篮命中率下降,必然会导致篮板球数的增多,因此篮板球的拼抢对于没有强力中锋,主力阵容偏小的勇士队来说同样至关重要。最后便是勇士队的镇队之宝三分球了。即使投篮命中率低于44%,篮板球个数少于50个,但当勇士队的三分球命中率大于26%的时候,也依然有4%的概率取得比赛的胜利。
而当其他球队利用强有力的防守迫使勇士队投篮命中率下降,通过积极的拼抢获得更多的篮板球时,将会使得勇士队失分增加,加大球队获胜的概率。当勇士队的投篮命中率低于44%,篮板球个数少于50的时候,会有13%的概率输掉比赛。而在以上两种情况下且球队失分达到105分以上时,会100%的输掉比赛。此外,在勇士队的投篮命中率低于44%,篮板球个数少于50且失分小于105,但三分球命中率下降到26%以下,同样会输掉比赛。
现利用2017-2018一个赛季的102条数据作为数据测试集,对得出的分类结果进行验证,验证结果如下:
由验证结果可知,在102条数据当中,根据得到的分类结果,成功预测对80条数据,预测正确的概率为78.5%,从一定程度上验证了我们分析的正确性。
三.结语
金州勇士队是一支十分依赖于投篮命中率以及三分球命中率的队伍,其他球队要是想在与勇士队的交锋中占得先机,必须做好两点。第一点就是加强球队的防守强度训练。勇士队具有顶级的三分球射手,进攻多数集中于外线,因此会更多的应用挡拆战术,这就对其他球队的防守移动速度提出了很高要求。第二点就是加强球队篮板球的争抢。谁能更多掌握篮板球,谁就能更多掌握进攻的主动权,同时抑制对方的出手次数,降低对方的得分机率。勇士队主力阵容相对偏小,其他球队可以做针对性部署以及篮板卡位战术,争取在篮板球上取得优势。金州勇士队是一支有底蕴深厚的球队,分析只是基于历史比赛数据,真正的比赛瞬息万变,需要场上运动员拼搏努力,希望NBA联赛以及我们国内的CBA联赛都能越办越好。
参考文献
[1]吕晓玲等.大数据挖掘与统计机器学习[M].中国人民大学出版社,2016.
[2]张良均等.R语言数据分析与挖掘实战[M].机械工业出版社,2015.
作者简介:
会渊凯(1993.04-),男,回族,河北省承德市人,河北省燕山大学理学院应用统计专业硕士研究生在读,主要研究方向:数据分析与数据挖掘。
(作者单位:燕山大学理学院)