2018年世界盃,大數據教你預測誰是世界盃冠軍?

加米穀學院

2018年世界盃,大數據教你預測誰是世界盃冠軍?

2018年俄羅斯世界盃將於6月14日正式拉開帷幕,70億+的目光即將聚焦在這140平米的足球場上。而隨著賽事日期的日漸臨近,對於本屆世界盃冠軍歸屬的預測和爭論進入到了白熱化的階段,預測世界盃的冠軍似乎已經成了大家一件大家津津樂道的事。2018年世界盃,大數據是否將成為下一位“預言帝”呢?

今天在此就教教大家,用大數據算出2018世界盃冠軍!

工具準備:電腦+你的大腦

如何算出冠軍人選呢?僅需要5步

2018年世界盃,大數據教你預測誰是世界盃冠軍?

一、利用爬蟲獲取數據

網絡爬蟲又被稱為網頁蜘蛛,網絡機器人,是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。

“球探網”等類似的網站抓取到各種足球比賽的每場比賽的比分之外,還包括犯規數、紅黃牌、控球率等詳細數據。這裡抓取了2018年世界盃參賽的32支球隊,選擇了2008年及以後的數據作為預測的基礎。

二、計算各球隊的進攻和防守實力

數據獲取到了之後,我們需要利用數據計算出每支球隊的進攻和防守實力。

計算公式:

該球隊的進攻實力=球隊A的場均進球數 / 所有32支球隊的場均進球數

該球隊的防守實力=球隊A的場均失球數/所有32支球隊的場均失球數

按照這個算法進行計算,可以得出以下兩張圖:

2018年世界盃,大數據教你預測誰是世界盃冠軍?

進攻實力方面,德國一馬當先,緊隨其後的是西班牙、巴西、英格蘭和葡萄牙;防守實力方面,西班牙則位列第一,法國、伊朗、巴西和英格蘭分列第二到第五位。

另外需要提醒大家注意的是,這裡的進攻實力和防守實力,並不是進球數和丟球數

,而且防守實力最低,表示這支球隊的防守越強。

三、構建泊松模型

接下來的步驟,就是通過建立泊松分佈模型來算出在一場比賽中,這隻球隊具體能踢進多少個球,也就是“期望值”

泊松分佈模型是一個數學概念,描述的是某段時間內,某個事件的發生概率。如某一服務設施在一定時間內到達的人數,電話交換機接到呼叫的次數,汽車站臺的候客人數,機器出現的故障數等等。

計算公式:

當球隊A和球隊B比賽時,A進球的期望值=A的進攻實力*B的防守實力*所有32支球隊的場均進球數

通過構建泊松分佈模型,有了這樣的概率分佈分析,我們就可以算出兩隊進行比賽的時候,某隊任意比分出現的概率了。

四、多次模擬賽程並統計結果

建立好泊松模型之後,對於任意兩支球隊,我們都能夠預測他們的比分。

2018年世界盃,大數據教你預測誰是世界盃冠軍?

從結果上看,差點奪得歐洲盃的法國果然風頭正勁,在這十萬次模擬中,法國隊有一萬多次奪得了冠軍。完成了新老交替的西班牙緊隨其後,畢竟曾經創造了統治世界的王朝,永遠不能低估一顆冠軍的心。

但這個結果明顯還不盡人意,這個結果是基於所有的比賽得分都在一樣的運算中進行分析,“世界盃”、“美洲盃”、“亞洲盃”、“友誼賽”的重要性和難度明顯是不一樣的。因此我們還需要進一步對數據進行整理和分析。

五、數據清理與調整

在我們的數據中,各支球隊跨大洲進行的比賽並不多。但是在計算各支球隊的進攻實力和防守實力時,沒有加以區別,這顯然也是有問題的。

所以基於比賽的性質,我們需要對數據重新賦權後,可以得到以下結果:

2018年世界盃,大數據教你預測誰是世界盃冠軍?

這就是2018年世界盃的比賽成果了,我們可以看到西班牙以0.117的比分佔據榜首,成為了2018年世界盃的最後贏家。西班牙、德國則成為了奪冠的重要人選。亞洲的日本、伊朗和尼日利亞也有可能成為奪冠黑馬。


分享到:


相關文章: