教A.I.系統舉止得體

教A.I.系統舉止得體

來源:紐約時報的Christie Hemm Klok

概要:令人吃驚的結果是:船深深地被屏幕上彈出的綠色小部件所吸引。因為只要抓到這些小部件就意味著得分。

教A.I.系統舉止得體

Geoffrey Irving(左)和Dario Amodei演示瞭如何使用簡單的視頻遊戲來訓練A.I.機器人。

舊金山---在Tesla的首席執行官Elon Musk創立的實驗室OpenAI內,機器正在自學人類的言行舉止。但有時候也會出錯。

近日下午,在OpenAI的舊金山辦事處,研究員Dario Amodei展示了一個會自學Coast Runner(一箇舊的賽車視頻遊戲)的自主系統。這個遊戲的獲勝者不僅穿過了終點線,而且得分最高。

令人吃驚的結果是:船深深地被屏幕上彈出的綠色小部件所吸引。因為只要抓到這些小部件就意味著得分。相比竭力去完成比賽,船更為瘋狂地去得分。它不停地繞著圈子,有時還會撞到其他的船隻,亦或是打滑撞到石牆上,因此總是著火。

Amodei的燃燒船證明正迅速重塑世界的A.I.技術存在風險。現在,研究人員正在研發一種在很大程度上可以自學做任務的機器。這就是Google的DeepMind實驗室創建系統的方式,而這個系統可以在古老的圍棋遊戲中擊敗世界上最好的玩家。但是,在這些機器通過數小時的數據分析進行訓練的時候,它們也可能會做出一些意想不到的,多餘的甚至是有危害的行為。

隨著這些技術被應用到在線服務,安全設備和機器人,這就成了一個令人關注的問題。現在,一個小社區裡面包括Amodei在內的A.I.研究人員正在開始探索防止最壞情況發生的數學技術。

在OpenAI,Amodei及其同事Paul Christiano正在開發一種算法,而這種算法不僅可以在幾個小時的嘗試和錯誤後學習做任務,而且還可以接受人力資源管理人員的定期指導。

在四處點了幾下後,研究人員現在有了一種展示自主系統的方法,而這種系統需要在Coast Runner中獲得積分的同時也朝著終點線移動。他們認為這些算法---人機界面與機器指令的融合可以幫助維持自主系統的安全。

教A.I.系統舉止得體

來源:紐約時報的Chritie Hemm Klok

OpenAI的Dario Amodei。 他和他的同事正在開發可以在反覆的嘗試和錯誤下學習做任務,並能接受人類老師指導的算法。

這些年來,Musk和其他專家,哲學家和技術專家曾警告說,機器有可能擺脫我們的控制,並以某種方式學習設計師沒有預料到的惡意行為。有時候,這些警告似乎有些誇張,因為今天的自駕系統甚至無法完成最基本的任務,比如識別自行車或紅燈。

但是,像Amodei這樣的研究人員正在努力地擺脫風險。在某些方面,這些科學家現在所做的事情就像是一個父母教導孩子明辨是非。

許多A.I. 領域的專家認為一種稱為強化學習的技術---機器通過極端的試驗和錯誤來學習做一些具體任務的方法---可能是A.I.學習的主要途徑。研究人員會指定機器所要努力獲得的特定獎勵,並且隨著隨機瀏覽任務,機器將明白做什麼會帶來獎勵以及做什麼不會有獎勵。當OpenAI訓練機器人玩Coast Runners遊戲的時候,要獲得獎勵就要獲得更高的分數。

這種視頻遊戲培訓在現實世界也具有影響。

研究人員認為,如果一臺機器能夠在像Grand Theft Auto這樣的賽車遊戲裡學會駕駛,那麼它就可以學會駕駛一輛真正的汽車。如果可以學習使用網絡瀏覽器和其他常見的軟件應用程序,那麼它就可以學會理解自然語言,甚至可以進行對話。在像Google和加州大學伯克利分校這樣的地方,機器人已經使用這種技術來學習像挑選或開門這種簡單任務。

這就是Amodei和Christiano努力建立能夠接受人類指導的強化學習算法的原因。這可以確保系統不會偏離手頭的任務。

在與倫敦的DeepMind公司(由Google擁有的實驗室)的其他人員的一起努力下,這兩位OpenAI研究人員最近在這一領域發表了他們的研究。 這個跨越了世界兩大頂級的A.I. 實驗室,並且是由兩個在過去並沒有真正合作過的研究人員一起完成的研究被看作是A.I.安全研究中的飛躍。

加州大學伯克利分校研究員Dylan Hadfield-Menell說:“這項研究驗證了很多以前的一些想法。”“這些類型的算法在未來的5到10年中大有希望。”

該領域很小,但正在發展壯大。 在OpenAI和DeepMind創建了致力於A.I安全的團隊後,Google的美國本土實驗室,也就是Google Brain也開始了相關行動。與此同時,諸如伯克利和斯坦福大學的一些研究人員通常與大型企業實驗室一起合作研究類似的問題。

教A.I.系統舉止得體

來源:紐約時報的ChristieHemm Klok。

站著的是Dario Amodei;穿淺藍色的襯衫的是Paul CHristiano; 而GeoffreyIrving在使用一塊白板。

有時候,研究人員要努力確保系統不會自行出錯,就像在Coast Runners遊戲裡面一樣。他們還要努力確保黑客和其他不良行為者無法利用這些系統中隱藏的漏洞。諸如Google的Ian Goodfellow這樣的研究人員正在探索黑客可能欺騙A.I.系統看到本不存在事物的方式。

現代計算機視覺是基於所謂的深層神經網絡,它是通過分析大量數據來學習任務的模式識別系統。 通過分析數千張狗的照片,神經網絡就可以學會識別狗。這就是Facebook在快照中識別臉孔的方式,而這也正是Google在其照片應用程序中即時搜索圖像的方法。

但是,Goodfellow和一些其他的人已經表明,黑客可以改變圖像,然後讓神經網絡相信它們所包含的事物,而事實上那些事物是不存在的。例如,通過改變大象照片中的幾個像素,他們就可以欺騙神經網絡,讓它認為那是一輛汽車。

當神經網絡應用於安全攝像機時,這無疑就是個問題了。研究人員說,僅僅在你的臉上畫幾個印記就可以讓相機認為你是別人。

“如果你用人類標註的百萬張圖像來訓練一個物體識別系統,那麼你也可以創造一個人類和機器意見完全不同的新圖像。”Goodfellow說:“我們需要了解這種現象。”

另外一個令人擔心的問題是,A.I系統可能會阻止人類將其關閉。因為如果這臺機器的目的是為了獲得獎勵,那麼按照這個思維,它可能會發現只有保持開機的狀態才能達成目的。這樣的威脅還遠遠不止,但研究人員已經在努力解決這個問題。

Hadfield-Menell和其他一些美國伯克利大學的人最近發表了一篇論文,論文中就提及了要採取數學方法來解決這個問題。他們表示,如果機器被專門設計成不確定其獎勵功能的話,機器將不會阻止人類關閉開關。這就會刺激它接受甚至是去尋求人為的監督。

這項工作大部分仍然還是理論性的。但鑑於A.I. 技術的快速進步以及它在許多行業中的重要性日益增加,研究人員認為,儘早開始才是最好的抉擇。

“A.I.將如何快速地發展,其中還有很多不確定性。”在DeepMind監督A.I.安全工作的Shane Legg說:“負責任的做法是設法瞭解這些技術可能以何種方式被濫用,以何種方式失敗以及想出各種處理這些問題的方法。”

來源:紐約時報的Christie Hemm Klok

原文鏈接:https://www.nytimes.com/2017/08/13/technology/artificial-intelligence-safety-training.html


分享到:


相關文章: