OpenAI團隊負責人:選擇DOTA2比其他遊戲更有挑戰性!

OpenAI團隊負責人:選擇DOTA2比其他遊戲更有挑戰性!


去年TI7,OpenAI在影魔Solo表演賽中戰勝了頂級玩家Dendi,名聲大震;TI8前夕,五個OpenAI電腦人組成的隊伍擊敗了由Merlini等組成的人類半職業隊伍;TI8表演賽上,OpenAI戰隊挑戰了人類職業戰隊,但未能成功。今日,我有幸採訪到了OpenAI DOTA2團隊的分佈式系統負責人Szymon Sidor,聽他來聊聊當時選擇該項目的初衷,以及OpenAI機器人未來與社區之間的交互可能。

Q:你好,Szymon!感謝抽時間接受採訪。請問您在OpenAI中的職務是?

A:我是DOTA2團隊的分佈式系統負責人。

Q:有趣。咱們從頭說吧,你們開發出OpenAI單個英雄和戰隊是如何緣起的?去年的影魔Solo賽上你們擊敗了一眾職業選手,今年你們又攜一支OpenAI戰隊來到TI。你們為什麼想做這件事?

A:大量的不同原因積累所致吧。起初我們只是想試著專注於任意一款流行網遊,於是通過Twitch查看了所有正在直播的火爆項目,當時我覺得LOL最火,DOTA2其次。不過DOTA2更容易集成,也更易發揮軟件功用。所以我們決定,就DOTA2了!決定之後,我們也找到了更多理由去支撐它。Valve是一個很好的合作伙伴,人們說進軍DOTA2較之LOL更具有戰略意義。

Q:Valve便於合作,這是不是你們進入DOTA2的主要原因?

A:是的。我相信假如選擇LOL的話,Riot肯定也會對我們的工作有所幫助,但我們沒有考慮過他們。

Q:說到戰略意義,與LOL合作難道不是更容易些嗎?還是說OpenAI DOTA2團隊想挑戰自己?

A:可能會更容易吧。不過我們確實也更有野心,也想讓任務更具有挑戰性。我們選擇DOTA2,是因為沒有顯而易見的方法去實現它的人工智能。所以在項目伊始,我們也不知道如何解決這一問題。

Q:這個OpenAI團隊中,有沒有誰是項目開始前就在打DOTA2的,有沒有人是在項目確定後開始玩的?

A:跟我一起參加了TI8項目的Jakub是一個DOTA2/LOL雙修玩家。公司其他一些人也都有數千小時的遊戲時長。我本人是項目開始後進來玩的,玩了大約一千小時了。我極不擅長!不過我覺得,僅僅通過觀看機器人遊戲就能學到很多東西。

Q:我記得OpenAI團隊說過,機器人從他們之前的經歷中吸取教訓,然後變得更好。剛開始時,你需要先教他們點兒什麼嗎?

A:吸取教訓,談不上吧。我們用的技術是強化學習。它是建立在“觀察,行動和獎勵”機制上的。機器人必須先看到一些東西,然後有選擇地行動,然後因行為良好而受到獎勵。遊戲開始時,他們會在基地周圍隨機走動。然後,他們可能會去走到線上開始補兵,因為它們可以得到金錢獎勵。這樣他們就會高興,並且再次重複。但是,當一個機器人走得太遠而被敵方防禦塔擊殺時,它就能學會保持一定距離,這樣機器人就慢慢進化了。不過,一開始完全是隨機的,沒有任何形式的引導。

Q:那你們也得告訴機器人最終目標吧?比如Solo時,目標是推掉塔;5V5時,目標是推掉遺蹟……

A:肯定的。這是獎勵。我們會告訴機器人,贏得比賽是件好事。我們也會給它們一些其他指示,比如補兵是件好事。不過我們不會告訴它們如何補兵。那是它們自己必須解決的問題。如果他們可以做到,那是好事啊!

Q:真的好有趣。我想象不出它所做的努力以及思考過程。短短一年,OpenAI團隊從Solo做到能與職業戰隊五五對抗,這個過程有多難?

A:極難。它需要太多開天闢地式的創新。有一長串的東西需要去融合。拿TI8表演賽上我們設置的團隊精神參數來說吧。一開始我們教機器人自私,就像典型的路人局那樣。然後,我們讓他們跟隊友越來越像,到了最後他們完全無私了。

Q:是得有一些過程。現在的OpenAI程序可以掌握多少英雄了?英雄的裝備選擇是預設的嗎?

A:現在可以在18個英雄中選擇了。裝備選擇是預設的,不過我們正在致力於讓機器人根據敵人和戰況做出裝備選擇。

Q:你說該項目的目的為研究。那OpenAI的研究由誰資助?

A:我們有許多的捐助人與投資人。初始投資人之一是埃隆·馬斯克(特斯拉汽車CEO,譯者注)。

Q:我想知道,你們在DOTA2項目中得到的學問,在其他領域能否實現?

A:可以的。我們在不同的地方已經開始使用這種技術了。其中有一項稱之為“自動化操作”,它就發現於DOTA2項目,並且使用了同樣的代碼。

Q:從社區角度來看,OpenAI軟件是否會與普通玩家見面?

A:我們正在考慮OpenAI與DOTA2客戶端的結合。不過有個艱鉅的問題,它需要不斷維護。我們不確定是否會獲得資源,所以我們無法做出任何承諾。繼續進行下去的話,好處是我們可以擁有不同水平的OpenAI,這些機器人匹配起來跟真人一樣。那樣一來,即使是兩三千分的玩家,也可以享受和機器人對戰的樂趣了。

Q:有個問題我問了許多人,但我感覺你可能是回答的最佳人選。你覺得人工智能有沒有可能發展成為《黑客帝國》中那樣?好比是讓一種意識自我發展,然後幾年後接管全人類……

A:人工智能有很多危險場景。您所描述的應該是最有可能發生的。我們同樣也要擔心惡意使用者。所以正如你所說,有些東西需要戒備,不過並沒有直接危險。假如發生在OpenAI身上,我們會有專門的安全團隊去考慮這些問題。

Q:感謝您接受採訪。


分享到:


相關文章: