“足球界的所有这些数据分析都是胡说八道,不是吗?”
伊恩·格雷厄姆被聘请协助托特纳姆热刺的引援团队,但他与自己的上司、后来的利物浦体育总监迈克尔·爱德华兹的第一次会面并不顺利。
“那次会见冗长而激烈,”格雷厄姆解释道,“会后我打电话给我的‘老板’,说我觉得热刺会开除我们,因为他们显然觉得我们是傻瓜。”
后来两人都去了利物浦,格雷厄姆在爱德华兹和尤尔根·克洛普的指导下,帮助俱乐部成为英超冠军和欧冠冠军,并在此过程中改变了球队的阵容。
他的初次经历,与许多英国足球早期的数据先驱者一样,颇为典型。如今,他们已取得突破——他们的工作已成为足球领域人才招募和训练方法必不可少的组成部分。
A
“我刚开始工作的时候,简报是这样写的:‘我们有很多数据,并且认为其中有一些价值,你能从中发现什么吗?’”Opta前数据分析师、后来在阿斯顿维拉任职的萨姆·格林说道,“就是这样。我们并不是想改变足球。”
“你会看到球迷们在网上争论预期进球数(xG)和球员年龄,”格雷厄姆补充道,“但至少这些争论是有意义的——是俱乐部真正担心的事情,而不是老套的‘谁是更衣室里最好的球员?’之类的。”
一般来说,足球数据革命的诞生可以追溯到2000年代中期——虽然Opta和Prozone等公司自20世纪90年代末就开始收集数据。当时,这些想法听起来合理,但其支持者面临的挑战是——如何让人们相信它?
部分问题在于现有数据的局限性。棒球是数据分析运动的典范,其数据集可以追溯到几十年前。相比之下,格雷厄姆刚加入热刺时,他只有两个赛季的数据可供研究,而且许多外国联赛的数据完全无法访问。在棒球领域,记录每一次投球结果的统计数据可以告诉分析师实际发生了什么——高内角球、低外角球、击球位置、出局方式——但足球的现有数据却不一定能做到这一点,知道一名球员完成了19次传球有什么内在价值呢?
“足球是最难分析的运动项目之一,原因就在于它涉及的人数众多,”发明xG的关键人物之一格林解释道,“你需要考虑这22名球员之间的互动动态,这会让分析变得更加困难。在计算简单的、基于事件的数据后,你不会遇到瓶颈,但分析成本会越来越高,能够参与的人数也会越来越少,公众参与度也会越来越低。”
“什么是传球?什么是空中对抗?什么是解围?”阿森纳首批全职内部数据分析师之一萨拉·拉德问道,“这其实相当难。那个球员是想传中还是射门?这些事情有很多模糊之处,所以让数据收集人员达成一致很棘手。这造成了整个局面的混乱,我们甚至无法真正定义什么是传球或射门,现在却试图在此基础上建立复杂的模型。”
21世纪初,许多分析人士都因查尔斯·里普的名声而蒙羞。他在20世纪50年代对比赛模式进行了细致入微的手写分析,在很多方面都极具远见卓识。但他最终因其结论而广受批评,因为他宣扬长传冲吊,并将其凌驾于所有其他风格之上。后来,他的理念在20世纪80年代被查尔斯·休斯等人推广,可以说,这让英国足球的风格倒退了几十年。格雷厄姆在其著作《如何赢得英超联赛》中,以利物浦前主教练布伦丹·罗杰斯为例,描述了这一情况。
但此时,格雷厄姆已经得到了爱德华兹的支持,爱德华兹开始看到格雷厄姆工作的价值。
“爱德华兹最初持怀疑态度的部分原因是,他最初是Prozone的分析师,受雇为朴茨茅斯的教练们制作统计报告,”格雷厄姆解释道,“但他知道哈里·雷德克纳普和他的助手们会把他赶出去,因为这份报告几乎没什么用——只显示冲刺次数和总距离。爱德华兹当时还是一名青训教练,凭借他的足球直觉,他知道这份报告并不能提供任何关于比赛的信息。”
“他之所以怀疑,部分原因在于他之前见过这种做法很糟糕。我们有一个非常早期的预期威胁模型(基于球当前位置的得分概率),但他开始推翻其中的所有假设。他会说‘有时候回传是最好的选择’,而我们不得不承认,我们在数据中看不到这一点。”
“卢卡·莫德里奇是我们意见分歧最大的球员(当时他们都在热刺)。我们说他水平高于平均水平,但排不进英超前十。爱德华兹坚持说他是我们队里迄今为止最好的球员。他是对的,因为他的技术在赛事数据中并没有得到很好的体现。”
这反映了早期分析师们普遍的经历。尽管他们被定型为“数字人”,但有时,他们最重要的技能是社交技能——能够在俱乐部内部沟通他们的工作,以展现自己的价值。
“社交技能这个词可能有点夸张了,我们都是内向的人——这是数据分析师的标准性格类型,”格雷厄姆说,“但你必须沟通,诺贝尔奖得主、理论物理学家理查德·费曼就是一个很好的例子。他研究的是量子力学等复杂的东西,但他有句名言:如果你不能在五分钟内向酒吧给你端啤酒的侍应生解释清楚你的理论,那你就没理解这个理论。”
“很多足球俱乐部的工作人员并非数据专家——他们也不应该成为数据专家。他们的时间安排得满满当当,而且也没有三年时间去攻读数学学位。但他们通常都很聪明,充满热情。而作为数据专家,你的工作就是用清晰的足球语言解释你的模型是如何运作的。”
在阿森纳,数据分析师拉德曾就职于一家名为StatDNA的早期分析公司,该公司于2012年被阿森纳收购,旨在提升引援效率。拉德与球队管理层(最初是温格及其教练组)密切合作了十年。
“我们一直依赖视频作为沟通工具,”她解释道,“这并不是说所有东西都必须经过目测,但如果你想声称某件事是好的,而它看起来并不像,人们就会反感。所以你需要能够解释其连锁反应,并以一种让每个人都能接受的方式呈现它。”
“一个很好的例子是,我们为阿森纳青训学院做了一个看似简单的项目,他们想统计比赛中的换位情况。但当我们和教练组成员坐下来讨论时——我记得史蒂夫·博尔德也在场——他会说:‘是的,这是换位,但不太合适。’结果发现,他们真正想要的是换位并制造人数优势。我们发现执行换位的球员做得对,但辅助球员却做错了。所以我们在模型中改变了对成功的定义,这对教练组来说是一个很好的反馈,他们传递的信息需要改变。”
但有时,分析师仍然需要知道何时该有所行动。Statsbomb创始人泰德·克努森曾在布伦特福德工作过几年,在那里他的工作备受重视,但他在其他俱乐部的经历有时让他不得不依赖那些具有示范性的结果。
“对一些老派足球主管来说,这就像往猪身上涂口红一样,”他说,“你可以涂口红,但如果他们不接受这些东西,就会感到生气。头五年一直有人反对——甚至去年教练也遇到过这种情况。但最终,球队老板们不再允许他们的足球主管这样做了,因为他们看到世界上最好的球队都在使用这些数据——他们知道他们必须加入。”
一旦站稳脚跟,数据分析师就越来越能够用他们的过往记录来证明自己的价值。例如,在布伦特福德,数据是俱乐部理念的关键组成部分。由于身处英甲联赛,缺乏购买顶级球员的资源,他们只能逐步升级,创造回报并进行再投资,就像用流传甚广的“用红色回形针最终换回房子”的故事一样。
“在我任职阿森纳的最后几年,我们有一个核心足球情报小组,合作得非常好,”拉德说道,“他们的工作重点是通过搜集所有不同来源(无论是数据来源还是更传统的球探调查)的信息降低签约的风险。如果你回顾阿森纳那段时间的转会历史,你会发现从2020年起,成功率和失败率发生了巨大变化。”
“例如,我们围绕防守进行了一些非常定制化、主观的数据收集工作。这是一个巨大的分析黑洞,对全球大多数俱乐部来说仍然如此。虽然赛事数据通常会收集铲球和对抗,但这只是球员的积极性,而防守的艺术在于站位和预判,而不是干预。”
“但我们设计了一种方法来收集我们自己的信息,以弥补这一差距。这是一个程序,基本上可以评估球员何时做对了、何时做错了,极其复杂且耗时费力。你可以简单地把它理解为惩罚没有回防的边锋,让他身后形成威胁,而不是惩罚那些被留下一对一防守的边后卫。这个程序花了五年时间才做成,阿森纳近年来的中后卫引援记录相当不错。”
数据革命并非直线推进,甚至并非仅限于少数先驱者。从2000年代中期开始,多条发展列车同时运行——布莱顿队老板托尼·布鲁姆和布伦特福德队老板马修·本汉姆的博彩研究、阿森纳队和利物浦队的内部研究团队,以及Opta和Statsbomb等外部咨询公司都在推进数据革命。通常,他们彼此完全独立地开展工作。
“有时我会去和那些推销我们作品的商业人士开会,”当时在Opta工作的格林说道,“我去的时候,他们通常都很谨慎。你会觉得有些俱乐部很感兴趣,但没有人会亮出底牌,表明你是否领先于他们。我记得我去切尔西的时候,我肯定知道他们在做一些事情,但根本不知道它是否有价值。”
克努森认为,足球数据的历史可以大致分为四个浪潮:
赌博浪潮——由本汉姆和布鲁姆引领,足球数据首次被用于商业目的;
内部浪潮——阿森纳和利物浦等俱乐部发现了这些可能性,并开始在幕后开展自己的工作;
数据民主化——Opta和Statsbomb等公司开始出售工具,足球金字塔中不同财富水平的俱乐部都可以访问和实施;
追踪数据的诞生——像SkillCorner这样的公司能够在现有数据的基础上添加客观的体能数据,超越了传统球探追踪的一些能力。
早期,格林在Opta的研发工作主要是实验性的。
“显然,棒球是先驱,所以我们知道它能带来一些价值,”他说。“所以它从来不会让人觉得徒劳无功;总有人在投入。但有些工作你做了却毫无进展,有些却取得了成功,而且通常它们并非我所看重的。真正能产生影响的,才是令人惊讶的。”
格林是预期进球(xG)开发背后的核心人物之一。拉德当时正在阿森纳私下开发一个类似的模型,而格林最初关于这个主题的博客文章已经演变成了一个众所周知的统计数据,甚至被《每日比赛》节目引用。“这就像牛顿和莱布尼茨同时独立描述微积分一样,”拉德开玩笑说。
“这很奇怪,因为它当时并不一定能引起轰动,但后来却起了作用,”格林说,“它最终试图描述比赛——将你认为实际发生的事情整理成规则。如果你在25码外随意射门,它进球的可能性比近距离头球还小。”
“所以这对我来说是一块重要的基石。你必须先理解这一点,才能理解创造不同射门机会和进球的价值,因为这是足球世界中每个人都在努力实现的目标。但预期进球(xG)在主流领域的成功相对来说令人惊讶。”
但令人惊讶的是,在数据分析中,一种关键的情绪——挑战普遍存在的偏见,正是数据分析最有力的时候。例如,最终说服利物浦引进安迪·罗伯逊的人物之一,是格雷厄姆;与此同时,格林也有意向阿斯顿维拉推荐这位赫尔城左后卫。
“棒球统计学专家比尔·詹姆斯曾说过,”格林说,“如果你建立了一个指标,结果100%符合你的预期,那么你建立的任何模型都毫无用处。如果只有50%符合你的预期,那么你的模型很可能是错的。但如果你90%符合你的预期,那么剩下的10%数据就真的很有趣了。通常,只有一两个人的数据是真的。”
“我记得安迪·罗伯逊在一场比赛中的进球非常漂亮,这让我很惊讶,因为赫尔城降级了。虽然我本应该完全不去理会他的事,但我仍然很难完全冷静地看待当时的情况以及它对球员形象的影响。”
“这些信息有时会被有既得利益的球员或教练所利用。例如,在评估俱乐部自身的阵容时,技术总监过去签下的球员可能会受到批评。如果球员委托数据分析机构评估自己的价值,当数据分析结果显示他们不配获得那份丰厚的合同时,他们可能会感到沮丧。”
转会市场网站总经理托马斯·林茨讲述了克里斯蒂亚诺·罗纳尔多因对自己最新的价值更新感到不满而在Instagram上屏蔽该网站的故事。
“人们喜欢掌控自己的环境,所以有时你给教练或经纪人的信息,他们可能会不喜欢,”克努森说,“我明白——你会为了得到任何东西而奋斗。但我们必须努力权衡客观性,告诉他们要么接受,要么放弃。有时候,我们会取消一些球队的合同,因为有人希望我们修改报告。这让我们损失了一些钱,但我们觉得赚这笔钱是缺乏诚信的表现。”
正是在这些时刻,整体架构变得至关重要。格雷厄姆很快就指出,自己在克洛普和爱德华兹麾下效力利物浦时很幸运,因为那里的流程非常清晰。
“在引援过程中,对教练坦诚的重要性被低估了,”他解释道,“你必须告诉他们,虽然你认为某球员可能是最好的球员,但他们并不完美,所以他们的弱点也在这里——你觉得他们合适吗?”
“克洛普的伟大之处在于——他愿意接受球员弱点,换取他们发挥自己的优势。他说,如果一名球员拥有一些超级优势,这可以掩盖他们的不足。作为引援部门,我们可以给出诚实的意见,这样就能避免教练在球员无法完成X、Y或Z任务时感到沮丧。”
在阿森纳,球队的架构逐渐完善。“我们才刚刚开始,很多人还不太了解我们在做什么,或者如何才能最好地利用我们,”拉德解释道,“我认为我们一开始遇到的一个问题是,在体育总监出现之前的时代,所有事情都由一位教练负责。所以他们当然不一定会花太多心思去思考决策流程应该是什么样子,这有时会阻碍我们发挥应有的影响力。”
“有些人认为数据在招募中的作用仅仅是生成名单或进行筛选。我非常赞同数据和分析有自己的声音,应该对球员进行独立评估,独立于球探,这样你们就能拥有不同的视角,从而弥补彼此的盲点。”
B
如今,几乎每家英超俱乐部都配备了技术总监或类似职位,这使得数据在俱乐部的管理架构中占据了重要地位。当然,排名靠后的俱乐部与曼城、利物浦、阿森纳这样的顶级俱乐部之间仍然存在巨大差距。
一些在足球领域担任更广泛职位的新员工甚至拥有分析师的职业背景——阿森纳前租借经理、诺维奇城新任体育总监本·纳珀就与拉德一起在StatsDNA工作过。这展现了该学科新发现的影响力。
他们获胜的下一个理由是什么?剩下的一个难题是,他们是否会开始影响比赛中的教练——建议换人或改变战术体系。某些技术的进步意味着,尽管实践起来门槛很高,但理论上这些做法是可行的。
“比赛如此艰难的原因之一是,获胜的方式多种多样——这不像棒球,只有一种理想且有限的球员轮换方式,”拉德解释道,“足球比赛中,你可以用别人无法效仿的方式进行优化,不过无论你制定什么策略,总会有人与你抗衡。而且,45分钟的时间里,可供决策的数据并不多。”
拉德对数据分析师接下来提出观点的讽刺意味一笑置之。“说实话,这正是人脑在发现规律方面做得更好的地方。阿森纳很早就获得了实时追踪数据,教练们希望我们找到可以利用的空间。但这些空间不会持续很长时间——所以人类更擅长判断:‘这个人的位置不对,或者那个球员的反应有点慢’。使用现有的工具,你或许可以建立一个稍微好一点的模型,但我认为这才是人脑真正擅长的地方。”
格雷厄姆对此表示赞同。“我认为数据在战术方面还没有发挥太大作用,答案很简单。你需要一个好的追踪模型来指导战术,而大多数球队都没有——也许只有英超豪门和欧洲的几支大球队才有。我们花了两年时间在利物浦建立了一个这样的模型,我们拥有足球界资源最丰富的数据科学团队之一。”
“但对于大多数球队来说,如果数据能够指导战术,除非你确信自己拥有一个非常好的模型,否则可能不应该这么做。你还必须说服教练也使用它,而这需要模型有非常高的标准。”
一些人认为数据分析的下一个应用领域是训练。格雷厄姆90%的职责与引援有关,而拉德虽然只关注签约,但转会被视为主要优先事项。然而,这并不意味着数据分析只能局限在引援领域。
“训练数据和提升球员技能将是未来发展的大趋势,”克努森说道,“使用高速摄像机和激光雷达等设备可以帮助提高击球水平——这可能会产生巨大的影响,因为更好的击球对进球至关重要。但它也会影响到一些事情,比如你的中后卫能否持续地将球传到边路——我们知道,这是一种非常有价值的传球,并非每个中后卫都能做到。”
数据分析师不得不努力捍卫自己在足球界的角色。有时,数据本身并不能说明一切,需要有人为它们说话。对格雷厄姆来说,这是唯一可以证明偏见合理性的地方。
“有用的偏见是逆向思维,”格雷厄姆辩称,“足球界任何事情都过于注重规避风险。在热刺时期,球探很少关注欧洲大陆的球员——人们觉得外国人在英超踢不出来。现在想想,这种观点简直是疯了。”
所以,逆向思维就意味着,无论偏见是什么,你都愿意在另一个方向上走得很远,而这将给你带来优势。就像马修·本汉姆的名言:如果你在第90分钟以1∶0领先,但10人应战,你就必须继续进攻。从某种程度上来说,这种说法很蠢,但每个人都如此厌恶风险,以至于他们总是在同一个方向上犯错。
“找到偏见,朝着另一个方向去思考,即使你错了,因为其他人在另一个方向上都错了,这对你来说也是一个优势。”
久联优配-浙江配资之家-股票配资配资平台-威海期货配资提示:文章来自网络,不代表本站观点。