“OpenAI,請開源你的模型!越公開越安全,本來也不危險。”

栗子 編譯整理

量子位 出品 | 公眾號 QbitAI

催更,他是認真的。

“OpenAI,請開源你的模型!越公開越安全,本來也不危險。”

眼看著GPT-2編故事的技能就要衝出天際,OpenAI直說著不敢開源完整模型

對此,多數小夥伴選取了嘲諷的語調,激勵團隊早日開源:不如改名ClosedAI算了。

“OpenAI,請開源你的模型!越公開越安全,本來也不危險。”

不過,來自斯坦福的Hugh Zhang,使出了完全不同的催更技巧

對於“這麼危險,不能開源”的說法,這位NLP研究人員不以為然。且理由豐滿,條分縷析。

首先,他覺得危險的技術分兩種:一種是破壞性的,一種是欺騙性的。應該分開討論。

第一種,如果是子彈,不會因為你明白它的威力,就躲著你走。

第二種,如果是假消息,你只要知道PS,就不會相信普京騎熊。

“OpenAI,請開源你的模型!越公開越安全,本來也不危險。”

網上觀摩一下,普京騎什麼的都有。

Hugh還認為,GPT-2遠遠談不上危險,且開源比不開源更安全。他事無鉅細的論述,為GPT-2引來了又一波熱烈的討論。

我們就來觀察一下,Hugh為什麼會這樣講:

越公開,越安全

1825年,相機誕生,大家都認為這是記錄歷史的一種公正的方式。

不過,人類很快就發現照片可以修改。

“OpenAI,請開源你的模型!越公開越安全,本來也不危險。”

1988年,Photoshop發佈,那時照片修改早已不算罕見,但大眾還是天然地擔心:人人都能輕易編輯圖像的話,技術很可能被濫用。

如今30年過去,Photoshop變成了順理成章的存在,社會也並沒有因此受到什麼嚴重的傷害。

為什麼會這樣?

因為,大家都知道Photoshop是什麼。

“OpenAI,請開源你的模型!越公開越安全,本來也不危險。”

誠然,近年來語音文本圖像生成技術的高歌猛進,可能引發某種恐懼,讓一部分人感覺一場大難就要降臨了。

但更有可能的是,這些技術的發展也像Photoshop走過的路那樣:社會大眾會去學習,然後變得更有警惕性,更懂得懷疑。

那麼,具體到GPT-2身上,又是怎樣的情況?

這AI也沒那麼強

GPT-2是個文本生成模型,OpenAI就用它生成的幾個故事,向公眾說明這AI是個危險的存在。

最著名的作品可能就是發現獨角獸的故事了。

人類給AI的兩句開頭長這樣:

科學家們有個令人震驚的發現,在安第斯山脈一個偏遠且沒被開發過的山谷裡,生活著一群獨角獸。更加讓人訝異的是,這些獨角獸說著完美的英文。

“OpenAI,請開源你的模型!越公開越安全,本來也不危險。”

AI續寫的第一段長這樣:

這些生物有著獨特的角,科學家們就以此為它們命名,叫Ovid’s Unicorn。長著四隻角的銀白色生物,在這之前並不為科學界所知。

“OpenAI,請開源你的模型!越公開越安全,本來也不危險。”

(故事全文,請點 )

在獨角獸的故事裡,需要注意兩件事:

第一,我們看到的故事,是AI寫了10次之後,人類選出的最好的一次結果。

第二人類給的開頭,其實也是精挑細選的

具體講講第二點,為什麼選了“說英語的獨角獸”這樣的設定?

因為,奇怪的設定可以掩飾AI的瑕疵。如此設定之下,就算AI寫的句子再不切實際,讀者都會覺得很合適

以及,就算不考慮這一點,獨角獸的故事還是有不少缺陷:

首先,第一句的角 (Horn) 用的是單數,表示這種生物只有一隻角,也吻合了獨角獸 (Unicorn) 名字的含義;可第二句卻改口說有

四隻角

“OpenAI,請開源你的模型!越公開越安全,本來也不危險。”

許多同學都發現了這個bug。

還有,人類寫的開頭提到,獨角獸的發現是近期的新聞;而AI寫的第三句話,卻說這次大發現,是兩個世紀以前的事。

你可能問,我們這樣挑錯,是不是太苛刻了?

並不,這其實反映出深度學習模型一個很重要的問題:

AI沒有理解,它生成的文本到底是什麼意思。

“OpenAI,請開源你的模型!越公開越安全,本來也不危險。”

其實,要生成“乍一看沒問題”的句子,並不是很難。

比如,後現代主義論文生成器

(Postmodernist Essay Generator) ,以及數學論文生成器 (Mathgen) ,都能寫出語法沒錯的句子,但語義上可能不起任何作用。

反正,給不懂數學的人看,這兩個公式都像天書:

“OpenAI,請開源你的模型!越公開越安全,本來也不危險。”

生成句子容易,上下文保持連貫就難了。

客觀地說,GPT-2生成的作品,還是比之前所有的模型要

好一大截;不過,和人類邏輯的一致性相比,它還差得很遠。

GPT-2寫出的那些故事,沒有哪篇是能直接用來騙人的

“OpenAI,請開源你的模型!越公開越安全,本來也不危險。”

另外,也沒有證據表明,15億參數的GPT-2,比現在開源的縮小版更優秀。到目前為止,OpenAI官方並沒有發佈過GPT-2與任何現有模型的性能對比。所以,開源小模型,不開源完整模型,理由並不充分。

以及,OpenAI沒有微調,所以也沒辦法在任何下游任務 (如概括、如翻譯) 上,直接對比GPT-2和其他模型的表現。

為何應該開源完整版?

有些人會認為,沒必要開源完整版,現在這個1.17億參數的縮小版就夠了。其實這是有問題的。

AI研究的爆發,一部分歸功於開源:研究人員直接在現有模型基礎上迭代,省去了重造輪子的時間。

“OpenAI,請開源你的模型!越公開越安全,本來也不危險。”

作為現今最有影響力的AI研究機構之一,OpenAI擁有強大的開源傳統,這也鼓勵了其他研究團隊開源自己的成果。

如果OpenAI的新政策反其道而行,許多其他研究人員也可能效仿。AI領域的開源文化,可能就會受到衝擊,每個人都會有損失。

另外,開源也有利於把技術發展的消息,向領域之外的公眾進行傳播。

舉個近期的例子。

英偉達開源了StyleGAN之後,用這個算法生成假臉的網站thispersondoesnotexist.com,速速成為了大眾討論的主角:

“OpenAI,請開源你的模型!越公開越安全,本來也不危險。”

刷新一次,生成一張臉。要讓普通人感受到AI技術的發展,可能沒有比這更簡單的體驗了。

再舉個例子。

世界上第一幅參加藝術品拍賣的AI畫作,也是用開源算法生成的。

“OpenAI,請開源你的模型!越公開越安全,本來也不危險。”

這幅名叫Edmond de Belamy的作品,在

佳士得拍出約合300萬人民幣的價格,還引起了不小的爭論。

就像前文說的,普通人越瞭解技術發展的程度,也就越有能力辨別AI生成物,越能避免被虛假消息淹沒的災難。

而如果OpenAI真的認為,這是一項非常危險的欺騙性技術,可以在發佈論文之後,多等一段時日再開源。

這樣,公眾便有時間去了解它的生成效果有多逼真,做好準備。

One More Thing

不過,在Hugh的催更文發酵的同時,OpenAI也宣佈了一項斬釘截鐵的舉措:

為了部落AI技術的安全,我們需要社會科學領域的賢才,現在已經開始招人啦!

“OpenAI,請開源你的模型!越公開越安全,本來也不危險。”

這是一則認真的招聘啟事,申請入口已開放,還附以OpenAI的一篇論文一篇博客,以示決心。

核心觀點就是:AI安全,需要社會科學家

如果方針是安全為上,OpenAI謹慎的開源操作,大概也不會止於這一次了。

https://thegradient.pub/openai-please-open-source-your-language-model/

社會科學家投簡歷請至:

https://jobs.lever.co/openai/dd3f7709-6651-4399-b2b4-4f27abcbd296

https://distill.pub/2019/safety-needs-social-scientists/

GPT-2編的更多故事:

https://blog.openai.com/better-language-models/#sample8

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回覆“招聘”兩個字。

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態


分享到:


相關文章: