《紙上籃球》第二章第7節:一體化數據(上)

《紙上籃球》第二章第7節:一體化數據(上)

熟悉NBA 2K系列的玩家都知道,這款遊戲會給每位球員一個總評值,也就是2K rating,更新過程甚至受到了現實中一些球員的關注。但它終究只是二次元的產物,要想在三次元複製類似的一體化數據難度極大,有以下幾個原因:

1.現實中無法量化為數據的球員屬性極多。類似於攻防意識,無形資產之類看不見摸不著,缺乏嚴格定義的屬性就不說了,哪怕是更加肉眼可見的彈跳、速度、對抗等等,NBA也沒有相應數據(除了選秀體測)予以記錄。

2.即使隨著追蹤技術的進步,有記錄的數據門類變多,整合成一個總評數據時也有難度。這點上一節已經提過了,球員數據裡有很多發生在回合過程裡,不像球隊數據會最終指向“百回合得分”這種事實性的結果。它會導致即使你知道某個行為很重要,卻沒辦法知道它具體究竟有多重要。

舉個最簡單的例子,就是前文已經提到的助攻。沒有任何一個數據專家,可以為“助攻者在受助攻進球裡佔了多大功勞”這個問題給出標準答案。法爾克認為五五開,霍林格認為只佔1/3都是一刀切的做法。如果每個人在設計自己的一體化數據時,給予助攻各自不同的權重,那麼勢必會帶來不同的結果。

3.一個被人忽視的因素,即對球員能力的評價永遠是兩個維度而不是一個維度的,ESPN在做球員榜單時就強調應該quality(質)和quantity(量)共同評價。

打個比方,假設一個球員是一個85分的球員,卻出於體能和傷病管理的因素每場打不了太久,那麼他的貢獻到底和一個75分卻能打很久的球員如何比較?這個問題我們在球員分項數據標準化的時候只是從權接受了而已,並沒有真正地解決。

霍林格在21世紀初設計最有名的一體化數據PER時,就免不了遭遇這些問題,我們也可以一一對照著來看看:

1.PER是基於面板數據來計算的。面板數據可不僅僅是不記錄無形資產和身體素質,還會出現因門類偏少,指向防守的數據較之進攻明顯不足的情況。坎特和戈貝爾光比較PER並沒有什麼差別。

2.PER在設計各項數據權重時,免不了受到霍林格個人對籃球理解的影響。從事後的觀點來看,它是明顯帶有世紀之交數據分析的侷限性的,比如更加青睞高球權的球員,過於看重個人籃板數等等。

3.PER只是單位時間數據,不能用來比較球員累積時間所做的貢獻。

對於這些侷限性,霍林格自己應該比誰都清楚。但大部分人不會在瞭解PER時去看它配套的解釋文檔寫了什麼,更不清楚霍林格統計過對位球員的PER,做過PER的累積型數據VA和EWA(肯定也有侷限性,但關鍵是批評者應該知道)。

結果就是,在二十年的時間裡,哪怕是PER已經過時的今天,它也會被當成“數據無用論”的一個論據來使用——“PER有12345的缺陷,我都想得到霍林格卻想不到,那數據分析有什麼用?”

我認為PER代表著一種努力方向,分析者們知道即使球員的一體化數據可能永遠得不出標準答案,還是應該去嘗試,去在原有的基礎上優化,可能就會對球員有更加清晰的瞭解。比如現在基於on/off數據所做的各種一體化數據,比起PER就是不小的進步。

什麼是on/off數據?就是隨著play by play的完善,每個球員在場或者不在場期間球隊的百回合得失分已經有條件統計出來了。即使是不經過處理的on/off數據,相較於面板數據也有以下的優點:

1.它避免了面板數據在選擇門類上的困難。不管你在進攻端做的是得分助攻這種數據上看得到的事情,還是掩護拉開空間這種數據上看不到(或者沒那麼明顯)的事情,統統都指向在場與否百回合得失分這個事實性的結果。

2.它在攻防兩端的信息量是對等的,不會出現PER這種“因為面板數據裡進攻型居多,建模就會更偏向進攻”的情況。

3.它讓人們對各隊的輪換層次有更鮮明的瞭解。假設AB球星在場時都是球隊百回合贏5分,A球星不在場時球隊百回合仍贏5分,B球星不在場時球隊百回合輸5分。傳統的分析方法可能會把A球星所在隊戰績更好歸因於A的帶隊能力更強,這從on/off的角度看是絕對不成立的。

整體而言,用on/off來分析球員表現,也是“自上而下”,“從球隊到球員”思路的一種體現。當然它的侷限性也非常明顯:球員個人的on/off數據並不是靠一己之力打出來的,還是會受到隊友的影響。

有一種最錯誤的做法,就是直接給球員在場時的百回合得失分做排名,然後直接說某某的進攻效率排聯盟多少,防守效率排聯盟多少。通過這種操作,如今已經不在NBA打球的帕楚利亞,3年前可能是聯盟最強的中鋒。他作為勇士首發和四巨頭搭檔了大量的時間,on/off數據裡的on值相當漂亮。

第二章第8節,我們會繼續來聊聊分析師們針對優化on/off數據所做的幾種嘗試。


分享到:


相關文章: