为足球迷们开辟道路


随着曼城向大众开放其数据,足球分析的黄金时代即将开始。

路透社

本月,曼彻斯特城是曼联最着名的弟弟(和对手),宣布它将公布关于球队公开消费的详细数据。

俱乐部的新闻稿指出,“绩效分析学科的增长速度基本上属于俱乐部之手 - 正是他们以显着的成本购买了数据,而其他分析团队根本没有访问同一级别的数据... [但是]现在分析社区中有很多人有技能,愿望和愿景在性能分析空间中发挥作用......这些人没有任何意义数据来处理。“通过开放这些数据并将其提供给分析社区内的人员,曼彻斯特城希望“鼓励并激励下一代分析”。

这一举措虽然在足球界基本空前,但它完全符合更大的跨行业趋势,即开放数据以利用分布式人力资本和业余爱好者,爱好者和具有亲职技能的极客的创新潜力。将数据提供给希望使用数据的人的成功历史,足以说明足球分析的未来;我们可能正处于分水岭时刻。

通过开放促进创新的举措是以创新往往关于成本为前提的。特别是进入成本很重要。对于一群潜在的创新者(基本上任何部门)来说,开始创新所需的投入成本越低,潜在的创新者就越有可能成为实际的创新者。如果需要更多的设备,材料,特殊技能或特权信息,则会有更少的人尝试,修改和发现。随之而来的是,越来越多的人在试验和尝试创新,更有价值的创新可能会发生。这种动态意味着在需要创新的行业中,评估进入成本并努力降低它们是有用的。

对于近几十年来极具创新的科技领域的常见解释是,互联网降低了进入市场的障碍,因为基本上任何拥有计算机和足够时间的人都可以编写一些杀手级代码。哈佛伯克曼互联网与社会中心的学者Yochai Benkler已经在研究如何从根本上降低进入劳动力市场的障碍可以改变成本结构和生产组织。这一趋势比开放数据运动更为明显。这个运动从旧的开放源代码运动中获得哲学启发,认为数据应该可以免费提供给任何没有限制的人。

在数据集中的知识发现中,进入数据的主要障碍是访问。当公司,政府或其他私营公司谨慎地保护他们的专有数据时,使用这些数据并试图发现有价值的东西,或将这些数据用得好的人数仍然很小。当数据公开时,任何人都可以将这些数据运行。近几年来,各国政府已经开始大规模公布他们的数据。例如,美国政府的开放数据项目data.gov已经生成了200多个公民开发的应用程序。同样,作为市政开放数据空间的先行者,温哥华市于2009年开放了他们的数据,产生了有价值的公交数据,水网和公共空间的混搭。

开放源码开发中常见的谚语称为Linus'Law,指出“有足够的眼球,所有的bug都很浅”,表明如果你能够吸引足够多的人参与,难题就会变得更加容易。这是开放数据为知识发现和创新所做的。当在数据的大海捞针中寻找针时,有助于让更多人看到。让更多人看起来最好的方法是让它看起来很便宜。

降低看起来的成本,从而让更多人参与进来,正是曼彻斯特城已经开始做的事情。向上打开数据有望降低进入市场的门槛,以试验新的数据驱动方式来理解游戏。随着更多的眼球,这个 问题会变得很浅。

SBNation的足球编辑Graham MacAree说:“通常情况下,”你可以[公开]获得的唯一数据就是真正基本的东西:目标,助攻,卡牌......这是你真正能做的事情。“公共足球分析领域的领导者。

根据俱乐部的说法,一些数据将完全可供公众消费,但是最详细的数据 - “一种时间编码的饲料,其中列出了玩家,团队,事件类型,分钟和秒数在游戏中的所有玩家行动事件对于每项活动,以及每个活动的x / y / z坐标“将发送给分析师,他们将提交经俱乐部及其数据提供商Opta(足球数据挖掘领域的领导者)批准的项目提交。

这个更详细的数据对像MacAree这样的专家是有用的,他是棒球统计革命的老手,被称为“sabermetrics”(认为Moneyball),因为它包含的信息比从传统足球分析中收集的信息要多得多,个人在真空中的行为 - 也就是说,没有语境:玩家X通过,玩家Y运球,玩家Z的射门和得分。

麦克雷解释说:“对我来说最重要的是要知道球始终在哪里,所有球员的时间都在哪里,”。 “而City正在建议发布不仅仅是什么,而是其中的当时的数据。我们谈论的空间和时间非常多,这些数据集很难摆脱我们已经有了。“

这是足球分析社区的基础时刻。尽管人们对足球Moneyball或詹姆斯时刻的咆哮声(尽管人类运动的教父,棒球运动员比尔詹姆斯)仍然没有超过相当于一个盒子的得分,但研究领域仍然存在。大规模的高级指标需要多年的研究,特别是因为数据非常稀少。大多数尖端分析都是经过人工精心开发的。此前,曼彻斯特市无法获得这类数据的研究人员必须记录比赛中的每一个事件,逐帧观察,然后将其转录到Excel,并自行编写代码进行分析。像MacAree的径向传递地图这样的单一匹配分析花费了一天以上的劳动密集型工作。

在这个数据环境中,研究人员几乎没有希望提出可测试的,可验证的预测指标。

MacAree解释说:“如果你看棒球,那么僵尸革命就会产生,因为数据在有价值之前就已经可用了。”在这种环境下,进入创新的成本很低,比尔詹姆斯等人能够进行实验。但“现在我们知道数据的价值是多么宝贵,没有理由给我们[免费]给予我们......但我们的贡献[社区分析师]也可能是有价值的。我们一直在表明我们'值得将这些数据给予。“

曼彻斯特城决定至少部分地向公众开放其最有价值的资产之一是如此独特。他们决定接受棒球詹姆斯革命的开源性质,并将其至少部分地带入足球。

他们的新闻稿直接面向分析团体,描述了城市愿意“与你讨论”的绩效分析领域:“我们将直接与那些提出良好概念的人合作,并将你与其他人联系起来谁在同一个研究领域工作,“他们乌鸦。

足球分析还有很长的路要走,这只是迈向更大世界的一小步。城市的数据只有一年;要使预测模型具有价值,他们必须基于各种数据的多年数据并进行测试。根据多年的数据,这种类型的科学同行评审只有在团队和组织继续在城市的脚步中才有可能。但是,市政府开始公开他们的详细数据的举措代表了利用同行业生产力和分散专业知识的强大的第一步,我们已经看到其他行业取得了有意义的成果。如果公众证明他们可以做出某些事情 - 无论是真正的预测模型,还是一个有趣的概念 - 值得用这些数据进行投资,其他球队似乎可能会跟随城市的领先优势。

这是一个挑战,MacAree和其他人已经准备好了。