历时1个月的欧洲杯在法兰西大球场迎来了最终战。在C罗受伤提前被换下的不利局面下,葡萄牙人在120分钟结束前抓住机会打入制胜球。在赛前一致不被各方看好的情况下(根据冰鉴科技大数据团队的模型,葡萄牙最终赢得决赛的概率是35%),葡萄牙以较低的姿态顶住了法国队施加的压力。在常规时间结束后,葡萄牙的反扑逐渐起色,并且他们没有让比赛拖入点球大战。
足球:天生冷门的项目
在本届欧洲杯上,我们已经见证了太多次的弱队逆袭,从黑马冰岛、威尔士,到最后决赛赛场上的葡萄牙。每一届大赛,我们都能找到一些黑马,冷门似乎永远伴随着足球比赛。有人说,这就是足球的魅力所在。那么为什么足球比赛中容易出现冷门呢?
首先,最显而易见的一个原因,足球是一个团体运动,它所含有的元素过多,除了场上11名球员外,还有数量众多的替补、教练和其他辅助人员。有20个以上的个体对球队的比赛产生影响。而团体运动衍生出来的则是一支队伍之间各种不同独立个体间的互动关系,这将导致球队内有可能发生1+1>2的化学反应或者是队员之间的内讧。
其次,足球的比分都比较小。这指的是足球的比分一般都只有个位数,甚至很多情况下小于3。以本届欧洲杯为例,所有比赛的90分钟内平均进球只有2球多一点,分到两支球队,差不多平均是每队每90分钟进一球。在这样的前提下,如果强队不小心失误让弱队先进一球,那么情况通常会比较被动。而同样的篮球比赛中,弱队利用强队失误得分一次对整场比赛的影响却微乎其微,因为篮球赛的比分通常都是几十上百,强队能马上把这次失误的不良影响弥补。另外一个例子就是乒乓球从之前的每局21分降为现在的每局11分。由于中国乒乓球的强势,国际乒联为了防止一家独大,降低了每局的比分,使得弱的一方爆冷的概率增加,从规则上遏制强队。一个极端的例子就是如果乒乓球都是一球制胜,那么福原爱也就不会被张怡宁大魔王打哭了,她总能抓住一次机会抢先得分而获胜。而我们之前提到过,在本届欧洲杯上,每队的平均进球也就一个而已。
以上的两个直观的例子很好的解释了分数越少越容易出现冷门的现象。而这个现象是有数学原理支撑的,这就是大数定律。而冰鉴欧洲杯模型中使用的蒙特卡洛方法的数学基础就是大数定律。
最后,足球比赛的规则和客观条件使得赛场上的不确定因素被放大,比如三次的换人名额限制,补时,露天的球场等等。
所以,足球天生就是一个容易产生冷门的体育项目!
“神奇”的预测模型与算法
那么,如果谁尝试去预测这么一项运动的比赛结果,他面对的困难可想而知。首先,传统模型无法很好地表现球队内部球员的互动关系,更多的时候,它只会把每个队员的能力简单的相加。然而我们知道这是不正确的,有太多阵容豪华却成绩惨淡的例子,我们这里就不一一提了。而这个时候,正是机器学习算法大显身手的好机会。当一个事物的内部有几十上百个属性或者特征,而这些属性和特征之间又有非常复杂的非线性交叉关系的时候,传统的统计模型将无能为力,而机器学习算法能很好的提取并利用这些特征来进行预测结果。
机器学习算法会捕捉一些奇特的特性,而人在一般情况下,不会意识到他们。或者说,有时候这些特性甚至是反常识的。在预测欧洲杯比赛的模型中,一个特征变量是队伍中最近20场国际比赛中的平均进球,在一般人的理解中,这个变量越大应该代表这支队伍越强,然而实际上却不是。冰鉴模型组在模拟欧洲杯决赛时,一开始法国的胜率是66.0%,然而有小伙伴发现我们当时使用的平均进球是错误的(淘汰赛第一轮之后的平均进球)。在和冰岛及德国的比赛后,法国队的近20场平均进球明显是增加了。当我们修正了数据再模拟一次后,发现法国的胜率变成了65.8%!这意味着法国队居然变弱了!我们的第一反应是模型可能有错误,验证方法就是把法国平均进球调整为每场4个之后,再进行测试。然后,测试结果是法国碾压了葡萄牙,这说明模型应该没有太大问题……我们把葡萄牙换成其他球队之后,这个奇妙的现象却消失了。这表明,这个一段小区间上的非单调性只会在法国面对某些对手上出现,葡萄牙是其中之一。
在之前的一个月内,各路小伙伴都对冰鉴的预测模型很感兴趣,特别是一些朋友本身就是机器学习或数据科学方向的从业者。那么,我们在这里简要的描述一下我们的模型和仿真方法:
冰鉴科技在此次预测中使用的核心算法是Gradient Boosting。目标变量是球队A在面对球队B的时候,其在某些时间段内的进球数期望。理论上,这里的某些时间段可以指比赛中间的任意两个时间点之间,比如上半场5分钟到下半场结束。结合实际情况,冰鉴设计的时间段分别为上半场、下半场、加时赛上半场,加时赛下半场、点球大战这五个时间段。在预测的时候,我们同时还会预测B球队面对A球队时候的各个时间段内的进球数期望,这样子一场比赛的预测就完成了。注意了,单场比赛的预测是由两个独立的预测综合而成的。同时,我们把每个时间段内的进球定义为一个泊松过程。所以,我们的Gradient Boosting的Loss function就是poisson loss。就像我们之前说的,足球是一个复杂的易变的比赛,每一时间段的泊松过程的lambda都不尽相同。我们在球赛的进行中加入了一个马尔可夫过程,使得每一段泊松过程的lambda都会自适应变化,也就是变成了adaptive lambda。而之后的蒙特卡洛模拟框架是利用graphical model搭建的,并且我们对其进行了优化,使得整个数据结构非常适合矩阵式运算,这样就大大提升了模型的训练速度和整个赛程的仿真速度。
冰鉴科技的大数据团队充分利用了机器学习算法的优势,并且收集了大量宏观和微观的数据(从国家GDP到每个球员在历史比赛中的表现),来源于各个国家联赛、国际比赛详细数据和国际组织公开数据源(如世界银行、世界卫生组织等)。在这个前提下,冰鉴预测的模型更能反映两队比赛的结果,例如冰岛爆冷英格兰、威尔士战胜比利时两场比赛。而利用冰鉴预测和机构预测的赔率差值,广大球迷可以选择更好的获利方案。
本届爆冷与惊喜并存的欧洲杯业已落下帷幕,期间,冰鉴科技微信公众号共推送了7次对赛事的预测分析,早早地认出了冰岛队这匹大黑马,准确地预测了多场比赛的结果,并且到后期随着模型的成熟,在波兰vs葡萄牙赛事中甚至准确预测了进球数量。当然,在这届频频爆冷、黑马辈出的欧洲杯中,“科学”的预测有时也让位于足球这一冷门的“艺术”。赛场如同人生,时时都有“惊奇”,可有时候不正是这些不具确定性的东西才吸引我们不断探寻、不断尝试,永远风雨兼程却满怀希望与信心?接下来,冰鉴模型组会再接再厉,进一步收集数据、改善模型、提升分析技能,我们的预测并不会就此止步。随后,冰鉴将为大家继续免费推出欧洲五大联赛和美国NBA、NFL的比赛和球员基于机器学习算法的量化分析和预测,尽请期待!
当然,除了这些“不务正业”的建模预测以外,作为一家Fintech公司,冰鉴科技拥有最专业的数据科学家团队,通过机器学习算法和大数据相关技术,创新地对小微企业(和个人)进行360度的全方位信用评估。冰鉴科技自有的创新型机器学习算法在互联网征信领域已有非常广泛的运用和值得信赖的效用。
评论