原标题:《纸上篮球》序言:当我们聊起数据时,我们究竟是在聊什么

对于篮球的数据分析,大家经常听到这样一句话:“数据有它的局限性”。对此我们其实深表赞同。是的,即使我们计划在未来一段时间里,围绕篮球数据做抽丝剥茧的探讨和解读,却并不意味着我们非得扮演狂信徒的角色。

只不过在承认局限性这个大前提以后,我们还是希望把这句话做一些更细致的拆解。首先是大众眼中的篮球数据究竟是指什么?其次是面对局限性,我们究竟应该怎么做?

1891年奈史密斯发明了篮球运动,可以想见最初的数据栏里肯定有得分,否则比赛打完根本就不知道谁赢了。55年以后即1946-47赛季,NBA的前身BAA进入元年。根据美国的历史数据库显示,当时就有统计并且现在仍然可以查到数据包括:1.得分,2.助攻,3.投篮相关(含出手数、命中数以及命中率),4.罚球相关(含出手数、命中数以及命中率),5.犯规。

4年后也就是1950-51赛季,NBA开始统计篮板。1年后也就是1951-52赛季,NBA开始统计出场时间。22年后也就是1973-74赛季,NBA开始统计抢断、盖帽和失误(有网友提醒完整统计失误始于1977-78赛季,但BBR统计全联盟的平均数据及球队数据会更早一些),并且做了进攻篮板和防守篮板的拆分。

这里非常有趣的地方就来了,如果不算NBA创立之前的年份,相当于美国人大概花了27年时间,来完善面板数据(box score)以及其相应的场均数据的构成,然后就不再做任何主动性的大幅调整。期间1979-80赛季开始统计三分相关(含出手数、命中数以及命中率),更多是基于引入新规则后必须做的被动性调整。整个发展史大概是这样的:

我的意思是,一个40年都没有更新的东西,就不应该被当成某种“完全形态”来看待,甚至于它没有局限性才很奇怪。看到这里你大概会问:既然如此,我不看它不就完了?专注于比赛本身不好吗?如果你只是想茶余饭后看看球消遣一番,当然可以。但如果你想对篮球或者NBA有更深的了解,甚至是相关从业者,面板数据由于它的普适性,就是会无时不刻影响着你。

就拿NBA来说,30个队1,230场常规赛没有哪个神仙可以有精力全部看完。最死忠的球迷会看完主队的82场比赛,但想了解对手信息仍然会优先通过面板数据。

这个世界也不存在看个几分钟球,就能洞窥某个球队和球员是什么水准的所谓“高手”,NBA的资深教练和球探都做不到。本-法尔克(1)曾在多支NBA球队有过球探经历,光是花在录像拉片和剪辑上的时间就不知凡几。然而他却承认,自己跑去执教高中联赛时“数据缺失导致信息量太少了”,“不清楚对面的中锋投篮到底什么水平”,“策略难做会影响球员执行”。

真的太矛盾了!一个最容易影响到人们观点的工具,偏偏又是一个数十年未更新极其落后的工具。这方面全世界的篮球人都太照本宣科了,仅仅因为篮球是美国人发明的,在统计面板数据时就被人牵在屁股后面走,别人统计什么我们也统计什么。比如可能已经是世界上影响力第二高的专业赛事男篮世界杯,我查询FIBA官网就没看出有什么创新之举。

大家或许会觉得,美国不仅仅是篮球的发明者,也是篮球的领先者,跟在他们屁股后面走有什么不对呢?难道我们还能关起门来搞发明创造,去做别人的老师不成?

但接下来的核心点就出现了:美国人不做面板数据的更新,并不是没有能力,而是认为没必要去做。他们同时花大量的时间精力来研究各种进阶数据(advanced stats)的算法和呈现,并且已经实实在在地影响到了比赛。

毫不夸张地讲,NBA的近15年,就是进阶数据分析在引领篮球发展的15年。数据分析不是某种派别,某个风格,不是“剑宗”和“气宗”之争;而是毫无疑义的“更加先进的生产力”,类似于现代军事与肉搏战白刃战的区别。

大家请不要误解,数据分析仍然不能解决篮球场上的所有问题,但它只要能帮助我们比单纯的“肉眼看球”,或者“肉眼结合面板数据看球”解决更多问题,就值得付出努力去研究它。

如果把“领悟篮球奥秘”比作一个进度条的话,美国人自己也在纳闷进度条走到80%以后如何更进一步,真的是道阻且长。但我们作为学生,可以暂时不一起去纠缠这最后的20%应该怎么完善,而是应该想想别人在前50%,前60%到底是怎么走的。

人家在“存异”之前,早就花了大量精力来“求同”。用霍林格(2)的话来说,“美国篮球分析已经摘下了树上位置最低的苹果”。我们应该自问的是自己究竟摘下了没有。如果答案暂时是否定的,这个苹果究竟是什么,应该如何去摘下它。

文章的最后我想再强调的是,就是千万不要对数据分析有妖魔化的预设,拿一个不存在的靶子来打毫无意义。进阶数据的研究,从来都没有也不该和“看录像”摆在冲突的,二选一的关系上,不是说你研究完数据就可以不用看比赛了。它更不是仅指某种建模后得出的简单粗暴的一体化数据。倘若面板数据是障人耳目的起点,一体化数据是某个只能不断逼近的终点,那么起点和终点之间的空白地带,散布着各种各样评价单项技能的数据,就是当下最值得我们研究的。

对于学习先进经验,一个坏消息是,美国篮球其实已经过了分享氛围最好的时代了。各队花钱聘请分析师,基于利益考虑就不会做大量的信息交换,更别说我们来自不同的国家,说着不同的语言。

好消息则是,也有越来越多的业内人士意识到这个问题,而且美国篮球圈本来就很多人在“媒体人”和“队内分析师”两种角色里来回横移,也有助于我们更好地琢磨背后的思路。他们“桃李不言”,我们照样能够“下自成蹊”。

目前我的计划是这样,系列文章大概会分成几部分,先是球队数据分析,接着是球员数据分析,最后是单场比赛的分析。里头除了具体数据的简介和拆解,还会有不少涉及NBA历史的发展,各个位置的功能演变,以及数据对于实战的结合。本体连载是免费的,首发于微博“旋猫”,每天中午12点和晚上6点双更(工作日)或日更(周末)。将来把基础部分完善了以后,会视情况推出类似于DLC的更深度付费内容。

第一章第1节,我会和大家聊聊为什么要先讲球队数据,以及它的解读和呈现上存在最大的误区是什么。

注释:

1.本-法尔克:曾任76人和开拓者的球探,现cleaningtheglass的创始人,目前在对外呈现的数据量化方面最出色的分析师。

2.约翰-霍林格:曾供职于ESPN和灰熊管理层,现为The Athletic主笔,也是最早尝试撰写单个球员报告的媒体人。

原标题:《纸上篮球》序言:当我们聊起数据时,我们究竟是在聊什么

对于篮球的数据分析,大家经常听到这样一句话:“数据有它的局限性”。对此我们其实深表赞同。是的,即使我们计划在未来一段时间里,围绕篮球数据做抽丝剥茧的探讨和解读,却并不意味着我们非得扮演狂信徒的角色。

只不过在承认局限性这个大前提以后,我们还是希望把这句话做一些更细致的拆解。首先是大众眼中的篮球数据究竟是指什么?其次是面对局限性,我们究竟应该怎么做?

1891年奈史密斯发明了篮球运动,可以想见最初的数据栏里肯定有得分,否则比赛打完根本就不知道谁赢了。55年以后即1946-47赛季,NBA的前身BAA进入元年。根据美国的历史数据库显示,当时就有统计并且现在仍然可以查到数据包括:1.得分,2.助攻,3.投篮相关(含出手数、命中数以及命中率),4.罚球相关(含出手数、命中数以及命中率),5.犯规。

4年后也就是1950-51赛季,NBA开始统计篮板。1年后也就是1951-52赛季,NBA开始统计出场时间。22年后也就是1973-74赛季,NBA开始统计抢断、盖帽和失误(有网友提醒完整统计失误始于1977-78赛季,但BBR统计全联盟的平均数据及球队数据会更早一些),并且做了进攻篮板和防守篮板的拆分。

这里非常有趣的地方就来了,如果不算NBA创立之前的年份,相当于美国人大概花了27年时间,来完善面板数据(box score)以及其相应的场均数据的构成,然后就不再做任何主动性的大幅调整。期间1979-80赛季开始统计三分相关(含出手数、命中数以及命中率),更多是基于引入新规则后必须做的被动性调整。整个发展史大概是这样的:

我的意思是,一个40年都没有更新的东西,就不应该被当成某种“完全形态”来看待,甚至于它没有局限性才很奇怪。看到这里你大概会问:既然如此,我不看它不就完了?专注于比赛本身不好吗?如果你只是想茶余饭后看看球消遣一番,当然可以。但如果你想对篮球或者NBA有更深的了解,甚至是相关从业者,面板数据由于它的普适性,就是会无时不刻影响着你。

就拿NBA来说,30个队1,230场常规赛没有哪个神仙可以有精力全部看完。最死忠的球迷会看完主队的82场比赛,但想了解对手信息仍然会优先通过面板数据。

这个世界也不存在看个几分钟球,就能洞窥某个球队和球员是什么水准的所谓“高手”,NBA的资深教练和球探都做不到。本-法尔克(1)曾在多支NBA球队有过球探经历,光是花在录像拉片和剪辑上的时间就不知凡几。然而他却承认,自己跑去执教高中联赛时“数据缺失导致信息量太少了”,“不清楚对面的中锋投篮到底什么水平”,“策略难做会影响球员执行”。

真的太矛盾了!一个最容易影响到人们观点的工具,偏偏又是一个数十年未更新极其落后的工具。这方面全世界的篮球人都太照本宣科了,仅仅因为篮球是美国人发明的,在统计面板数据时就被人牵在屁股后面走,别人统计什么我们也统计什么。比如可能已经是世界上影响力第二高的专业赛事男篮世界杯,我查询FIBA官网就没看出有什么创新之举。

大家或许会觉得,美国不仅仅是篮球的发明者,也是篮球的领先者,跟在他们屁股后面走有什么不对呢?难道我们还能关起门来搞发明创造,去做别人的老师不成?

但接下来的核心点就出现了:美国人不做面板数据的更新,并不是没有能力,而是认为没必要去做。他们同时花大量的时间精力来研究各种进阶数据(advanced stats)的算法和呈现,并且已经实实在在地影响到了比赛。

毫不夸张地讲,NBA的近15年,就是进阶数据分析在引领篮球发展的15年。数据分析不是某种派别,某个风格,不是“剑宗”和“气宗”之争;而是毫无疑义的“更加先进的生产力”,类似于现代军事与肉搏战白刃战的区别。

大家请不要误解,数据分析仍然不能解决篮球场上的所有问题,但它只要能帮助我们比单纯的“肉眼看球”,或者“肉眼结合面板数据看球”解决更多问题,就值得付出努力去研究它。

如果把“领悟篮球奥秘”比作一个进度条的话,美国人自己也在纳闷进度条走到80%以后如何更进一步,真的是道阻且长。但我们作为学生,可以暂时不一起去纠缠这最后的20%应该怎么完善,而是应该想想别人在前50%,前60%到底是怎么走的。

人家在“存异”之前,早就花了大量精力来“求同”。用霍林格(2)的话来说,“美国篮球分析已经摘下了树上位置最低的苹果”。我们应该自问的是自己究竟摘下了没有。如果答案暂时是否定的,这个苹果究竟是什么,应该如何去摘下它。

文章的最后我想再强调的是,就是千万不要对数据分析有妖魔化的预设,拿一个不存在的靶子来打毫无意义。进阶数据的研究,从来都没有也不该和“看录像”摆在冲突的,二选一的关系上,不是说你研究完数据就可以不用看比赛了。它更不是仅指某种建模后得出的简单粗暴的一体化数据。倘若面板数据是障人耳目的起点,一体化数据是某个只能不断逼近的终点,那么起点和终点之间的空白地带,散布着各种各样评价单项技能的数据,就是当下最值得我们研究的。

对于学习先进经验,一个坏消息是,美国篮球其实已经过了分享氛围最好的时代了。各队花钱聘请分析师,基于利益考虑就不会做大量的信息交换,更别说我们来自不同的国家,说着不同的语言。

好消息则是,也有越来越多的业内人士意识到这个问题,而且美国篮球圈本来就很多人在“媒体人”和“队内分析师”两种角色里来回横移,也有助于我们更好地琢磨背后的思路。他们“桃李不言”,我们照样能够“下自成蹊”。

目前我的计划是这样,系列文章大概会分成几部分,先是球队数据分析,接着是球员数据分析,最后是单场比赛的分析。里头除了具体数据的简介和拆解,还会有不少涉及NBA历史的发展,各个位置的功能演变,以及数据对于实战的结合。本体连载是免费的,首发于微博“旋猫”,每天中午12点和晚上6点双更(工作日)或日更(周末)。将来把基础部分完善了以后,会视情况推出类似于DLC的更深度付费内容。

第一章第1节,我会和大家聊聊为什么要先讲球队数据,以及它的解读和呈现上存在最大的误区是什么。

注释:

1.本-法尔克:曾任76人和开拓者的球探,现cleaningtheglass的创始人,目前在对外呈现的数据量化方面最出色的分析师。

2.约翰-霍林格:曾供职于ESPN和灰熊管理层,现为The Athletic主笔,也是最早尝试撰写单个球员报告的媒体人。

发表于:2020-03-20 22:11
今日头条
  • NBA
  • CBA
  • 英超
  • 欧冠
  • 西甲
  • 意甲
  • 德甲
  • 法甲
  • 中超
  • 亚冠
  • 名次球员球队场均
栏目热门