论文部分内容阅读
研究目的:体育数据分析已经成为世界顶尖俱乐部和联赛不可或缺的一环,许多体育俱乐部在进入21世纪以来相继利用先进的体育数据分析技术和理论不断优化评估运动员能力的模型。体育数据分析中的勾股定理理论(pythagorean theorem)是一套用于预测球队战绩的公式理论,最初由比尔-詹姆斯在《棒球概要》中被提出,后逐渐优化被广泛运用于棒球数据分析中,后人在此基础上通过调整指数参数,从而被更广泛运用在篮球、足球、美式橄榄球、冰球等其他体育项目赛事的战绩预测分析中。通过预测球队胜率与实际胜率之间的关系,球队管理层能够通过操作改善球队表现,教练员也可以通过这一数据作为评估球员与球队整体表现的依据。本研究以篮球为例,首次通过将CBA联赛数据代入勾股定理理论模型中,并首次提出适用于CBA联赛的参数系数,将预测胜率准确率提升到96%以上,通过实例展现篮球勾股定理理论的优势,结合CBA联赛发展的实际特点,得出关于中国篮球数字化发展的结论和建议。研究方法:本研究中所有赛事数据源均出自篮球数据统计网站Basketball Reference,在计算实验过程中使用Excel、Python、R等软件进行数据清理、数据预处理和计算。通过将CBA2019-2020赛季比赛数据代入模型中,根据计算实验得出,当ex P=11.2时,平均预测偏差最小为4.37%,在20支球队中,新疆队的预测偏差最小,仅为0.0103%,而上海队预测偏差最大,高达26.3%,在20组样本数据中,上海队26.3%和广州队12.4%属于明显异常值,远高于平均。其中上海队的预测胜率仅为8.5%,而实际胜率却有34.8%,说明上海队的战绩远超实力,根据勾股定理理论反推,公式预测上海队在46场常规赛的赛季中仅能获胜约4场,CBA2019-2020赛季战绩表现最差的球队是八一队,八一队的实际胜率是13.0%,预测胜率是22.0%,说明八一队的实力要高于战绩水平,CBA2019-2020赛季最差的球队从数据分析角度并非是八一队而是上海队。为求出CBA联赛普遍适用的ex P值,从而对未来进行预测,同理,将CBA2018-2019赛季数据代入模型,通过计算实验得出最佳ex P=13.5,此时平均预测偏差为2.67%,在20支球队中,四川队的预测偏差最小,仅为0.014%,而广厦队预测偏差最大,达到7.26%,无明显异常值出现。将CBA2017-2018赛季数据代入模型,通过计算实验得出最佳ex P=13.6,此时平均预测偏差为3.937%,在20支球队中,吉林队的预测偏差最小,仅为0.098%,而福建队预测偏差最大,高达13.78%,为唯一异常值。在剔除异常值后,平均预测偏差降至3.42%,再次对19组数据进行最佳exp计算,得出结果仍为ex P=13.6时,其余19队的胜率预测最接近真实胜率。可推测出近年CBA联赛的exp为13.5-13.6,而2019-2020赛季的数据出现偏差的可能原因推测是疫情增加了战绩的不确定性,部分球队上半赛季和下半赛季实力差距明显,主要由限制外援入境政策导致。研究结果:将CBA2020-2021赛季数据代入(数据截止第二阶段结束),调整ex P=13.55,平均预测偏差达到3.79%,考虑到赛季仍未结束,还有进一步提高准确率的空间,在20支球队中,江苏队的预测偏差最小,仅为0.27%,而四川队和广州队预测偏差较大,分别为9.68%和9.47%,根据公式倒推,两队相对偏离3个胜场,处于合理范围,可验证数据模型的科学性。最终最佳ex P=13.55与莫雷于1994年提出的13.91相近,与之形成对比,近年NBA联赛exp远高于14,主要原因是NBA近年比赛速率提升,回合数提升,得分相较90年代有较大提升,同时小球和魔球理论也推动了本队和敌队得分的上升,90年代NBA回合数和节奏与近年CBA类似,因而具有参考价值。根据已有数据,进行计算实验调整,截至赛季第二阶段结束,CBA2020-2021的最佳exp为14.2,与2017-2019以及莫雷理论相近,从而体现该模型的稳定性。在获得最佳exp后,可用数据模型进行两支球队对阵的胜率分析,以本赛季榜首球队广东队对阵辽宁队为例,广东队截至第二阶段结束场均得分124、失分108.2,辽宁队场均得分114.7、失分101.5,广东队的得分与失分均高于辽宁队,因而无法通过观察法推测两支球队的实力水平关系,利用篮球勾股定理理论,取主队场均得分和客队场均失分平均数,计算得出比值R,在本例中,R=1.012,将其代入勾股定理理论公式。通过计算,广东队的胜率是53.9%,可以看出广东队与辽宁队难分伯仲实力相当,但是由数据分析可以得出广东队要更胜一筹。同样以广东队为例,将对手换成垫底球队天津队,天津队场均得分100.4、失分110.2,计算得出比值R,在本例中,R=1.123,通过代入公式计算,广东队的胜率为82.8%,极大概率战胜天津队。研究结论:通过求出最佳指数参数exp,可以将平均预测偏差降低至4%以下,对于快节奏的联赛,如NBA,ex P值较高,约为15-16,而对于中国CBA联赛而言,exp最佳值约为13.6,出现异常值的平均概率约5%,对于CBA赛程来说,4%的平均预测偏差约等于一场比赛胜利的预测偏差,模型预测准确度相对较高。篮球勾股定理理论作为一种特殊的胜率预测模型,相比传统的线性回归与机器学习胜率预测模型,操作更加简单、准确率更高、需要的数据样本更少,在目前国内篮球数据采集尚不发达的情况下,仍然能展现出不错的准确度。对于国内除CBA以外的篮球联赛,如NBL、CUBA、耐高联赛等,同样可以采用篮球勾股定理理论推导出与之匹配的ex P值,并计算出预测胜率,从而更好地评估球队与球员实力,为基层篮球教练员提供便利。棒球勾股定理理论经过优化改良逐渐拓展出篮球、美式橄榄球、冰球等相应的勾股定理理论,在全世界范围内,美国走在体育大数据分析的最前沿,数据分析已经在特定的美式体育项目中扎根,相比之下,如足球、乒乓球、羽毛球等国内普及度较高项目,理论上也可以发展出一套对应的勾股定理理论。目前仍然存在的问题在于某些项目的数据库建立不完善、不开源,因而无法让学者进行数据分析研究,也无法利用这项新技术提升运动员和队伍竞技水平。除了勾股定理理论之外,国外还有很多其他体育数据分析理论值得国内借鉴学习,目前国内的研究仍然局限于赛场的技战术数据分析研究,而对于体育赛事、薪资、无形资产评估与预测模型的搭建等方面会是未来研究的重要领域。