绝了!巧用大数据实现精准预测的新门路—泊松分布研究

在很多APP或者网站中常能看到泊松分布在足球预测中的应用,很久以前笔者就曾研究过泊松分布,本文笔者将对其进行更深入的探讨,运用泊松分布的原理建立预测模型,详细说明建立过程并分析预测结果,抛砖引玉,相互探讨。

绝了!巧用大数据实现精准预测的新门路—泊松分布研究


首先,我们大概了解一下什么是泊松分布。泊松分布是以法国数学家泊松(1781~1840)命名的,他是19世纪概率统计学领域里的卓越人物,在数学统计领域中以他命名的理论除了泊松分布外,还有泊松定理、泊松公式、泊松方程、泊松过程、泊松积分、泊松级数、泊松变换、泊松代数、泊松比、泊松流、泊松核、泊松括号、泊松稳定性、泊松积分表示、泊松求和法等等。


简单来说泊松分布就是假设我们知道某一个事件的平均发生次数,并且假设事件与事件之间发生是相互独立的,那么我们就可以计算出这些不确定事件的发生概率分布。泊松分布被运用到很多小概率事件上,比如二战中的V-2导弹袭击伦敦、交通事故的概率、放射性衰变等。同理,在足球场上的进球从某种程度上来说就是小概率事件,所以我们可以把定义中提到的事件换成进球。


也就是说,在足球比赛中,如果我们知道对阵双方各自的预期进球数,那么1)我们就能通过运算得到一个囊括所有可能比分的概率分布图(例如图1,每种比分都有对应的概率,左下方是主队获胜比分,右上方是客队获胜比分,夹在中间的是平局比分);2)根据比分概率分布图,进而可以得出胜平负所对应的概率;3)同样还能得到大小球、双方都进球玩法的概率。


绝了!巧用大数据实现精准预测的新门路—泊松分布研究

图1 泊松分布 - 比分概率分布图


1. 泊松分布详细步骤


1)选择目标联赛:笔者以26个联赛为研究标的,包括五大联赛、五大联赛各自二级别联赛、荷甲、荷乙、葡超、苏超、挪威超、俄超、瑞典超、瑞士超、土超、英甲、希腊超、巴甲、中超、日职、日职乙、澳超。

2)确定数据样本范围:笔者用2014/15至2018/19这5个赛季作为被预测赛季,假设还未进行(如果是非跨年联赛则为2014至2018赛季),样本数据库从2013/14开始向前追溯至2006/07赛季。分别以被预测赛季过去1、3、5、8个赛季跨度的数据为样本进行泊松分布的概率计算(共计4个样本,且样本包含被预测赛季已赛场次)。假设2014/15是一个还未进行的赛季,作为被预测赛季,笔者以过去1个赛季(2013/14)的数据为样本来计算泊松分布概率,并且随着模拟预测场次的进行会把2014/15已赛场次包含在样本中,同时笔者还会以过去3个赛季(2011/12至2013/14)、过去5个赛季(2009/10至2013/14)、过去8个赛季(2006/07至2013/14)的数据为样本分别进行计算。这是一个动态的过程,如果被预测赛季为2015/16赛季,那么数据样本分别选自于过去1个赛季(2014/15)、过去3个赛季(2012/13至2014/15)、过去5个赛季(2010/11至2014/15)、过去8个赛季(2007/08至2014/15)。


(注:通常在研究泊松分布时研究人员会选择某一个样本范围,例如3个赛季或是5个赛季,笔者之所以选择4个样本跨度是希望观察球队的概率变动趋势,与下文的研究方向有关)


3)统计数据:确定好4个样本跨度后(被预测赛季之前的1、3、5、8个赛季),需要统计各个样本中各支球队的主场场均进球数及主场场均失球数,以及整个样本中所有球队的平均主场场均进球数及平均主场场均失球数。同理,统计各支球队的客场场均进球数及客场场均失球数,以及整个样本中所有球队的平均客场场均进球数及平均客场场均失球数。

绝了!巧用大数据实现精准预测的新门路—泊松分布研究

假设我们要预测西甲2018/19赛季,以皇马为例(其它球队同理),那么1、3、5、8这4个样本对应的统计结果分别为:


Ø (1)2017/18赛季:皇马主场场均进球2.84,主场场均失球1.05,客场场均进球2.11,客场场均失球1.26,联赛平均主场场均进球1.55(=联赛平均客场场均失球),联赛平均主场场均失球1.15(=联赛平均客场场均进球)


Ø (3)2015/16至2017/18赛季:皇马主场场均进球2.86,主场场均失球0.98,客场场均进球2.42,客场场均失球1.11,联赛平均主场场均进球1.60,联赛平均主场场均失球1.18


Ø (5)2013/14至2017/18赛季:皇马主场场均进球3.06,主场场均失球0.93,客场场均进球2.44,客场场均失球1.13,联赛平均主场场均进球1.59,联赛平均主场场均失球1.16


Ø (8)2010/11至2017/18赛季:皇马主场场均进球3.22,主场场均失球0.92,客场场均进球2.37,客场场均失球1.07,联赛平均主场场均进球1.62,联赛平均主场场均失球1.15


4)计算各支球队的相对优势:相对优势包括主队主场进攻相对优势(数值越大越好)、主队主场防守相对优势(数值越小越好)、客队客场进攻相对优势(数值越大越好)、客队客场防守相对优势(数值越小越好)。

绝了!巧用大数据实现精准预测的新门路—泊松分布研究

仍以皇马为例(其它球队同理):


Ø (1)2017/18赛季:


皇马主场进攻相对优势 = 皇马主场场均进球/联赛平均主场场均进球 = 2.84/1.55 = 1.83


皇马主场防守相对优势 = 皇马主场场均失球/联赛平均主场场均失球 = 1.05/1.15 = 0.91


皇马客场进攻相对优势 = 皇马客场场均进球/联赛平均客场场均进球 = 2.11/1.15 = 1.83


皇马客场防守相对优势 = 皇马客场场均失球/联赛平均客场场均失球 = 1.26/1.55 = 0.81


Ø (3)2015/16至2017/18赛季:


皇马主场进攻相对优势 = 皇马主场场均进球/联赛平均主场场均进球 = 2.86/1.60 = 1.79


皇马主场防守相对优势 = 皇马主场场均失球/联赛平均主场场均失球 = 0.98/1.18 = 0.83


皇马客场进攻相对优势 = 皇马客场场均进球/联赛平均客场场均进球 = 2.42/1.18 = 2.05


皇马客场防守相对优势 = 皇马客场场均失球/联赛平均客场场均失球 = 1.11/1.60 = 0.69


Ø (5)2013/14至2017/18赛季:


皇马主场进攻相对优势 = 皇马主场场均进球/联赛平均主场场均进球 = 3.06/1.59 = 1.92


皇马主场防守相对优势 = 皇马主场场均失球/联赛平均主场场均失球 = 0.93/1.16 = 0.80


皇马客场进攻相对优势 = 皇马客场场均进球/联赛平均客场场均进球 = 2.44/1.16 = 2.10


皇马客场防守相对优势 = 皇马客场场均失球/联赛平均客场场均失球 = 1.13/1.59 = 0.71


Ø (8)2010/11至2017/18赛季:


皇马主场进攻相对优势 = 皇马主场场均进球/联赛平均主场场均进球 = 3.22/1.62 = 1.99


皇马主场防守相对优势 = 皇马主场场均失球/联赛平均主场场均失球 = 0.92/1.15 = 0.80


皇马客场进攻相对优势 = 皇马客场场均进球/联赛平均客场场均进球 = 2.37/1.15 = 2.06


皇马客场防守相对优势 = 皇马客场场均失球/联赛平均客场场均失球 = 1.07/1.62 = 0.66


5)计算主客双方各自预期进球数:我们需要计算主队主场预期进球数以及客队客场预期进球数


假设预测皇马vs西班牙人,那么使用上一点中得出的数据代入图2公式即可算出,当然,笔者仍然要对4个不同的数据样本分别进行计算。


绝了!巧用大数据实现精准预测的新门路—泊松分布研究

图2 预期进球公式


6)计算泊松分布概率:这个过程可以用EXCEL公式实现,公式如图3


绝了!巧用大数据实现精准预测的新门路—泊松分布研究

图3 泊松分布EXCEL公式


假如,我们要计算皇马vs西班牙人比分为3:1的概率,并且我们已经通过上述步骤计算出了双方的预期进球数,皇马主场预期进球数为3.05,西班牙人客场预期进球数为0.8,那么就在EXCEL单元格中输入图4公式,其中比分3:1对应的x1和x2分别为3和1,其它比分同理。


绝了!巧用大数据实现精准预测的新门路—泊松分布研究


图4


计算得出3:1的概率为8.05%,按照相同方法我们可以求出所有比分概率,然后将主队获胜比分概率相加即为主胜概率,将平局比分概率相加即为平局概率,将客队获胜比分概率相加即为客胜概率。同样,将双方都进球比分概率相加即为都进球概率,将进球数大于2.5球的比分概率相加即为大2.5球概率。


依据6个步骤对所有预测场次进行计算,形成一个动态模型,当新的预测赛季被加入时,原先样本数据中最早的一个赛季将自动被剔除。至此,26个联赛中近5个赛季(被预测赛季)的泊松分布概率都已计算完毕,由于篇幅有限,图5是部分节选以供参考。


绝了!巧用大数据实现精准预测的新门路—泊松分布研究

图5


2. 概率变动趋势与结果


首先,计算出来的泊松分布概率可以协助我们评估被预测场次的赛果概率,例如通过对比被预测场次的平均欧赔概率与泊松分布概率之间的差别来为分析提供帮助,但由于这里会涉及到很多难以量化的指标,比如伤病影响、战意变化、天气、心理博弈等因素都会是差别产生的原因,所以在具体分析中还应因场而异。这里笔者主要从大概率角度为大家提供宏观思路

绝了!巧用大数据实现精准预测的新门路—泊松分布研究


在所有让球盘口中,笔者将-1.25至-3.75(主队让球)以及1.25至3.75(主队受让)统称为深盘,1球及以下盘口中,平手盘,半球盘及一球盘相对来说盘路概率比较均衡,而平半盘(包括-0.25和0.25)和半一盘(包括-0.75和0.75)则分别代表着下盘与上盘属性,这两个盘口我们更多要顺势而为,如果非要反概率而为那是跟自己过不去。所以如图6所示,平半盘、半一盘、深盘为三个主要研究目标。


图6中的“历史概率”指的是26个联赛中近5个赛季对应盘口的盘路概率,例如主让平半-0.25,上盘42.13%、走盘0%、下盘57.87%,也就是说这是未经过任何筛选处理的历史天然概率,平半盘的下盘历史概率与半一盘的上盘历史概率大约都为57%左右。


*主胜概率连升

”指的是被预测场次的欧赔初盘平均主胜概率>依据过去1个赛季数据样本计算的泊松分布主胜概率>依据过去3个赛季数据样本计算的泊松分布主胜概率>依据过去5个赛季数据样本计算的泊松分布主胜概率>依据过去8个赛季数据样本计算的泊松分布主胜概率。换句话说,主队在近期赛季的表现连续好于早期赛季。


*主胜概率连降”指的是被预测场次的欧赔初盘平均主胜概率<依据过去1个赛季数据样本计算的泊松分布主胜概率<依据过去3个赛季数据样本计算的泊松分布主胜概率<依据过去5个赛季数据样本计算的泊松分布主胜概率<依据过去8个赛季数据样本计算的泊松分布主胜概率。换句话说,主队在近期赛季的表现连续劣于早期赛季。


*客胜概率连升”指的是被预测场次的欧赔初盘平均客胜概率>依据过去1个赛季数据样本计算的泊松分布客胜概率>依据过去3个赛季数据样本计算的泊松分布客胜概率>依据过去5个赛季数据样本计算的泊松分布客胜概率>依据过去8个赛季数据样本计算的泊松分布客胜概率。换句话说,客队在近期赛季的表现连续好于早期赛季。


*客胜概率连降”指的是被预测场次的欧赔初盘平均客胜概率<依据过去1个赛季数据样本计算的泊松分布客胜概率<依据过去3个赛季数据样本计算的泊松分布客胜概率<依据过去5个赛季数据样本计算的泊松分布客胜概率

<依据过去8个赛季数据样本计算的泊松分布客胜概率。换句话说,客队在近期赛季的表现连续劣于早期赛季。


绝了!巧用大数据实现精准预测的新门路—泊松分布研究

图6 26个联赛近5赛季统计结果


如图6,通过四种概率变化趋势分类的筛选,各盘口概率的变化情况如下:


Ø 主让平半-0.25:在主胜概率连升的情况下,下盘概率(客赢盘)从57.87%升至63.92%,反向变化。


Ø 主受让平半0.25:在客胜概率连降的情况下,下盘概率(主赢盘)从56.40%升至64.29%,正向变化。


Ø 主让半一-0.75:在主胜概率连升的情况下,上盘概率(主赢盘)从57.91%升至63.00%,正向变化。


Ø 主受让半一0.75:在客胜概率连升的情况下,上盘概率(客赢盘)从56.04%升至70.18%,正向变化。


Ø 主让球深盘-1.25至-3.75:在主胜概率连降的情况下,上盘概率(主赢盘)从46.70%升至61.90%,反向变化。


Ø 主受让深盘1.25至3.75:在客胜概率连升的情况下,上盘概率(客赢盘)从51.95%升至62.03%,正向变化。


这个结论可以让我们有依据地去获得更多的概率庇护,当然,泊松分布模型(以及其它模型)搭建所需要的数据量会阻碍很多玩家,大家可能会抱怨这东西在实操中没法自己运用,笔者最近一直在深入研究诸如此类宏观大概率方向的课题,也在构思可否通过建立个人微信公众号平台为大家提供实时数据的可能性。


绝了!巧用大数据实现精准预测的新门路—泊松分布研究


3. 主让平半: 均注平局


上一点中主让平半-0.25盘口通过加入“主胜概率连升”条件后下盘概率(客赢盘)从天然概率57.87%升至63.92%,如果同时加上条件“

客胜概率连降”,在更加强化主队优势后下盘概率(客赢盘)进一步升至67.74%。但更引人注意的是,平局概率高达45.16%(62场28平),均注平局累计盈利26.53手资金,回报率42.79%。其中多数情况主队名次高于客队(35场/62场=56.45%),这也符合概率优势,这些场次均注平局累计盈利31.69手资金,回报率高达90.54%。当然,筛选条件的增加必然导致场次数量的减少,从某种程度上来说结果所反应的概率可能不够稳定。


绝了!巧用大数据实现精准预测的新门路—泊松分布研究

图7 均注平局


4. 主让半一: 均注上盘


第2点中我们知道,主让半一-0.75盘口在“主胜概率连升”的情况下,上盘概率(主赢盘)从57.91%升至63.00%,属于正向变化。这个条件要求本场比赛的欧赔初盘平均主胜概率连续高于1、3、5、8样本所对应的泊松主胜概率(也就是本场>1>3>5>8),限制比较严格。


如果我们只考虑本场比赛的欧赔初盘平均主胜概率高于4个泊松主胜概率,而不要求连续高于过去(即本场>1、本场>3、本场>5、本场>8,但不要求本场>1>3>5>8),同时由于该盘口属于正向变化,再加上本场比赛的欧赔初盘平均平局概率高于4个泊松平均概率,以及本场欧赔初盘平均客胜概率低于4个泊松客胜概率(简称高/高/低),充分表达了对主胜概率优势的正向变化。


如图8第一场,2015/16英超斯旺西2-4桑德兰,本场欧赔初盘平均主胜概率54.43%大于依据过去1、3、5、8赛季数据样本计算的任何一个主胜概率53.38%、52.81%、50.64%、53.26%,但并不要求连续大于。


图8共计117场比赛,澳门初盘主让半一,上盘打出概率为70.09%,均注上盘累计盈利24.06手资金,回报率20.56%。


绝了!巧用大数据实现精准预测的新门路—泊松分布研究

图8 主让半一


本文主要通过建立泊松分布,计算多个样本跨度下的泊松概率,并结合被预测场次的欧赔平均值,来为赛果分析提供帮助。不过,模型的建立都需要前提假设,泊松分布假设事件与事件之间的发生是相互独立的,而实际上当一方取得进球后,另一方肯定会受到影响,所以该事件并不是相互独立的。另外,很多参数也是模型无法进行量化的。所以,并不存在完美的模型,毕竟足球赛果中运气也是决定因素之一。不过,笔者相信有依据地去获得更多的概率庇护肯定要强于漫无目的地投注。


分享到:


相關文章: