小白也懂博弈論:納什均衡

可以搜索微信公眾號【Jet 與編程】查看更多精彩文章

原文發佈於自己的博客平臺【http://www.jetchen.cn/nash-equilibrium/】


具有競爭或對抗性質的行為稱為博弈行為,並且博弈理論在經濟學、國際關係、軍事戰略等很多領域都有廣泛的應用,其中以納什均衡為代表的非合作性博弈理論在日常中最為常用。


簡介

在很多場景下,比如玩德州撲克等遊戲時,雖然有些時候選擇的策略並不一定是全局的最優解,但卻是相對於其他人的策略而做出的最優解,即每個人都是對自己最有利的解決方案,我們將其稱為為納什均衡

納什均衡(或者納什平衡),Nash equilibrium ,又稱為非合作博弈均衡,是博弈論的一個重要策略組合,以約翰·納什命名。

敲黑板,關鍵字,非合作

小白也懂博弈論:納什均衡

再解釋一下,所謂納什均衡,指的是參與者的一種策略組合,在該策略上,任何參與人單獨改變策略都不會得到好處,即每個人的策略都是對其他人的策略的最優反應。換句話說,如果在一個策略組合上,當所有其他人都不改變策略時,沒有人會改變自己的策略,則該策略組合就是一個納什均衡。

枯燥的描述很難理解,下面使用幾個案例來理解下。

囚徒困境

背景:有兩個囚犯A和B,犯事兒進去了,然後警官對其分開審訊,所以A和B是沒有機會進行串供的

獎懲:如果雙雙招供,則各判2年,如果雙雙不招供,則各判1年,如果一個招供一個不招供,則招供的人立即釋放,不招供的人判刑十年

結果:最後囚犯A和B都會選擇招供,所以各判2年,這個便是此時的納什均衡。

但是明明雙雙不招供才是最優解啊,其實不然,回頭再看一下概念,納什均衡其實並不是全局的最優解,而是每個人相對於每個人的策略而做出的最佳策略,下面來解釋下。

我們來建立一個數學模型,使用 -2、-1、0、-10 來形容上面的獎懲,見下面的分析圖。

A的心路歷程:

  • 如果B招供了,那麼我招供的話我就會判2年,不招供的話就判十年,所以我會選擇招供,收益是 -2
  • 如果B不招供,那麼我招供的話我就會被釋放,不招供的話就判1年,所以我會選擇招供,收益是 0

所以,不管B招不招供,A只要招供了,對A而言是最優的策略。

小白也懂博弈論:納什均衡

同理,對於B的心路歷程也相似,B也會選擇招供:

小白也懂博弈論:納什均衡

所以最終的結果是A和B都選擇了招供。

即此時的納什均衡點為:A和B都招供。

但是其中涉及到兩個點,就是串供

重複作案:如果A和B進行了串供,則雙方都會選擇不招供,如果涉及到重複作案,即刑滿釋放後還會再次合作作案,則雙方為了以後的利益著想,雙方也都不會選擇招供

綜述,敲黑板,納什均衡的前提是:決策圈中的個體是獨立,不合作,不橫向溝通的

智豬博弈

背景:有兩隻豬,一隻是大豬,另一隻是小豬,然後有一個食槽,裡面會有食物落下,但是需要去遠處按一下按鈕,每次按一下按鈕,食槽中便會補滿食物。但是呢,在按按鈕的來回路上,是需要消耗一定的能量的。

獎懲:跑過去按一下按鈕再跑回來吃食物,會消耗一些能量,記為 -2,每次食槽中補滿食物,總食物量為 10份,大豬先吃的話能吃到 9 份,小豬先吃的話,大豬能吃到 6 份,一起吃的話,大豬能吃到 7 份

結果:大豬會選擇去按按鈕,而小豬會選擇不去按按鈕,即在原地等著。

小豬心路歷程:

  • 如果大豬去按按鈕,則大豬消耗 2,那麼 ①小豬不去按按鈕,則小豬先吃的,小豬可以吃 4份,大豬豬吃 6份,結果記為(4,4),②小豬也去按的話,大豬吃 7份,小豬吃 3份,各自消耗 2,記為(5,1),所以小豬選擇不去按按鈕
  • 如果大豬不去按按鈕,那麼 ①小豬去按按鈕,則小豬消耗 2,大豬可以吃 9份,小豬吃 1份,記為(9,-1),②小豬不去按的話,雙方都不消耗,但是也都沒有食物吃,記為(0,0),所以小豬選擇不去按按鈕

所以,不管大豬怎麼樣,小豬都會選擇在原地等待。

小白也懂博弈論:納什均衡

大豬心路歷程:

  • 如果小豬去按按鈕,則小豬消耗 2,那麼 ①大豬不去按按鈕,則大豬先吃的,大豬可以吃 9份,小豬吃 1份,記為(9,-1),②大豬也去按的話,大豬吃 7份,小豬吃 3份,各自消耗 2,記為(5,1),所以大豬選擇不去按按鈕
  • 如果小豬不去按按鈕,那麼 ①大豬去按按鈕,則大豬消耗 2,大豬可以吃 6份,小豬吃 4份,記為(4,4),②大豬不去按的話,雙方都不消耗,但是也都沒有食物吃,記為(0,0),所以大豬選擇去按按鈕

所以,表面上看,大豬的決策是受到小豬的決策所影響的,但是分析小豬的心路歷程得知,小豬是不會去按按鈕的,那麼大豬最後的決策還是會選擇去按按鈕,這樣大豬的收益才會最大化。

小白也懂博弈論:納什均衡

所以綜上,最終結果是大豬去按按鈕,而小豬在原地等待著。

即此時的納什均衡點為:大豬去,小豬不去。

其實這和現在的很多公司一樣,體量較大的大公司類比為大豬,體量較小的小公司類比為小豬,新技術的研發視為去按按鈕由上面的智豬博弈可以看出來,大公司一般都會採取主動發起新技術研發的策略,而小公司也一般都會採取先觀望的策略

寫在最後

在每次參與者都只有有限種策略選擇並且允許混合策略的前提下,納什均衡是一定存在的。

比如選舉、群體之間的利益競爭、會議中的法案競爭等,是必然存在納什均衡的。

以公司間的價格戰為例:如果對方一直降價,那我方繼續降價必然會出現虧本買賣,然而如果不降價,也會出現失去市場的情況,損失更大,但如果對方不降價,我方更要降價才能謀得一絲絲利益,所以只要出現價格戰,必然會兩敗俱傷,這是納什均衡體現的必然結局。所以要改變這種結局,雙方必須坐下來談判尋求新的利益評估分攤方案,從而改變原先的利益格局(比如當年京東和噹噹的一場價格戰,最終以雙方各佔某一方面的主市場從而獲得新的利益分割方案)。

納什均衡是基於非合作博弈論的平衡不動點解

例如上文的囚徒困境問題,如果兩個囚徒是有合作的,則必然不存在納什均衡點。

所以,在現實生活中,納什均衡這一博弈是很重要但是也是很有限的,因為在很多情況下,即使知道平衡不動點必然存在,但是往往卻很難找到。

納什均衡(這一非合作博弈論模型)僅僅是突破了博弈論中的一個侷限

因為在社會這一龐大的博弈環境下,還會摻雜著複雜的經濟行為,雖然社會中的大家並非是集體合作性的,但在這種龐大的非合作性對象中,納什均衡點是幾乎不可能找到的。

納什均衡屬於NP問題(摘自 wik i上面的一段話,暫時看不懂但卻覺得很有道理)納什均衡屬於NP問題,Daskalakis 證明它屬於 NP 問題的一個子集,不是通常認為的 NP-完全問題,而是 PPAD-完全問題。這項研究成果被一些計算機科學家認為是十年來博弈論領域的最大進展。

小白也懂博弈論:納什均衡


分享到:


相關文章: