01.16 DeepMind團隊衝擊腦科學領域,揭祕大腦的分佈式獎勵機制

DeepMind團隊衝擊腦科學領域,揭秘大腦的分佈式獎勵機制

自從被谷歌母公司 Alphabet 收購以來,DeepMind 發佈的多項技術創新成果都令人印象深刻,這一次,DeepMind 向腦科學領域發起衝擊,希望讓人類與 AI 之間能夠更加緊密的結合,同時也驗證了分佈式強化學習的潛力。

近日,DeepMind 和哈佛大學的科研人員,借鑑強化學習的經驗,優化分佈式強化學習算法,提出了關於我們人類大腦內獎勵機制的新理論:人類大腦在使用與 AI 類似的分佈獎勵機制。

科研人員希望通過這套算法理論,研究並解釋多巴胺細胞對大腦的行為、情緒等方面的影響。據悉,該研究成果昨日登在世界最權威學術期刊《Nature》(自然)雜誌上。

該論文發佈之後,DeepMind 公司創始人 Demis Hassabis 非常興奮的在其推文中表示:

"DeepMind 每天都將努力工作,並致力於創造這種高度創新的科學研究!"

DeepMind团队冲击脑科学领域,揭秘大脑的分布式奖励机制

這也是 DeepMind 今年第一次發表最新的論文研究,也是 Nature 非常罕見的將一個團隊研究出的兩篇論文放在同一天的期刊上,意義不同尋常。

優化的強化學習算法,讓多巴胺獎懲機制完美實現

事實上,強化學習(Reinforcement learning)是一種動態編程。它使用獎勵和懲罰系統來訓練算法。強化學習強調如何基於環境而行動,以取得最大化的預期利益,這是神經科學與 AI 相連接的最早,也是最有影響力的研究之一。

在上個世紀 50 年代,當時在哈佛大學讀書的馬文·明斯基(Marvin Minsky)借鑑了著名生理學家伊萬·巴甫洛夫(Ivan Pavlov)在動物行為領域的觀察結果,試圖設計一種智能機器和神經網絡模型。

到了 80 年代後期,計算機科學家則利用這個神經網絡模型,希望開發了一種算法,這種算法僅依靠獎懲反饋作為訓練信號,就可以單獨學會如何執行復雜的行為。

事實上,最後他們真的研究出來了一種時序差分算法(Temporal Differences,簡稱 TD),該算法可以說是強化學習的中心點,很好的回答了當時所遇到的機器算法問題,並且預測了未來價值體系。

與此同時,在 TD 算法開發出來之時,又有另一波神經科學家在研究猴子的多巴胺神經元行為。

那麼,什麼是多巴胺呢?

DeepMind团队冲击脑科学领域,揭秘大脑的分布式奖励机制

多巴胺的化學式

簡單來說,多巴胺是一種腦內分泌物。作為神經遞質調控中樞神經系統的多種生理功能,多巴胺神經元聚集在中腦,它的不斷釋放,會反饋到大腦,得到人類更加快樂或悲傷的狀態。

如果說,神經科學家研究多巴胺只是為了觀察猴子大腦的話,那麼與 TD 算法的結合,或許是一個新的發展。

一些科學家利用多巴胺效應,應用於獎懲機制,並且與 TD 算法結合。此外,為了讓深度神經網絡更加強大,也讓 AI 變得更強,更多的科研人員發明了分佈式強化學習。畢竟,更迭的算法機制才是決定 AI 是否強大的主要因素之一。

技術不斷更迭,AI 是在不斷強大了,那麼人類呢?我們大腦的多巴胺獎賞機制是怎樣的呢?

DeepMind 團隊的研究人員,從分佈式強化學習中獲得了啟發,並採取優化,發現一個驚人的事實:人類在使用與 AI 一樣的大腦機制。

過去,大多數人認為,人類的多巴胺神經元所觸及的反應都大致相同,與 AI 是不太一樣的。

“有點像在一個詩唱班,每個人唱的都是一模一樣的音符。”論文中這樣表示。

但後來,DeepMind 的研究人員發現,之前人們的固有認知是錯的。學習和動力是由內部和外部獎勵驅動的,受到環境或心情影響,實際上每個多巴胺神經元釋放出來的結果是存在概率性分佈,有些是消極,有些則是積極的。

在理論基礎上,DeepMind 和哈佛大學實驗室的科研人員通過訓練 11 只小鼠,讓其執行可變任務的培訓,並給予不同大小且不可預測的獎勵。最後,他們從小鼠細胞上發現了“分佈式強化學習”證據,從而得出上述結論。

總而言之,對於我們普通人來說,上面的細節有一些晦澀難懂,只需要記住一句話就可以了:我們大腦與 AI 一樣採用分佈式強化學習算法,多巴胺會被調節為不同形式。也就是說,我們人類的嬉笑怒罵並不是四個表情,而是由無數種表情和狀態形成的。

未來的應用在哪兒?

如果你看到這裡的話,會突然感覺,這種結論明明就是一個我知道的結論,只是科學家去幫忙驗證罷了。但事實上,這個結論可以應用到整個人工智能技術和機器人交互領域。

最近幾年,AI 技術發展迅猛,語音交互已經深入人們的生活場景,比如蘋果的 Siri、小米的小愛同學,它們在慢慢替代你的動手操作能力,打電話、聽音樂、設置鈴聲。它們看起來無所不能,甚至被命名為“助理”。

事實上,即便是 Pepper 機器人,也只是在完成“任務”,而缺乏情感。任務型人工智能只是沒有感情的機器,何談助理一說。

但如今,DeepMind 的這份研究成果,或許會開拓機器情感化的方向,讓 AI 技術更好的服務於人類。

值得注意的是,就在這篇論文登上 Nature 的同時,DeepMind 還有另外一篇研究出現了同一期刊上—利用 2018 年 12 月公佈的 AlphaFold 機器系統,可以預測每對氨基酸之間的距離以及連接的化學鍵之間的扭轉角,從而預測蛋白質的 3D 結構,這個結果比之前的任何算法模型都要精準。

“蛋白質的3D結構可能是科學家可以獲得的最有用的信息,以幫助瞭解蛋白質的作用及其在細胞中的工作方式。”

倫敦大學學院(UCL)生物信息學小組負責人 David Jones 表示,“確定蛋白質結構的實驗技術既費時又昂貴,因此迫切需要更好的計算機算法來直接從編碼蛋白質的基因序列中計算蛋白質的結構,而 DeepMind 致力於將 AI 技術運用到這個長期存在的問題上,這在分子生物學中是絕對的進步。這是分子醫學的新發現。”

DeepMind团队冲击脑科学领域,揭秘大脑的分布式奖励机制

毫無疑問,DeepMind 已成為人工智能技術發展的主要推動者。

儘管 DeepMind 團隊是依靠 AlphaGo 在圍棋賽場上一站成名,但如今,DeepMind 團隊希望將目光聚焦到更實際、更容易落地的 AI 技術研究當中。

正如 Demis Hassabis 所提到的:(DeepMind 就是要)通過創建重要情報(研究成果)本身,來解鎖一些世界上最棘手問題的答案。

或許,這就是兩篇論文的實際意義吧。(本文首發鈦媒體,作者/林志佳,編輯/趙宇航)

論文地址:

https://www.nature.com/articles/s41586-019-1924-6

https://www.nature.com/articles/s41586-019-1923-7

DeepMind 官方

https://www.newscientist.com/article/2230327-deepmind-found-an-ai-learning-technique-also-works-in-human-brains/

https://venturebeat.com/2020/01/15/deepmind-dopamine-protein-folding-ai/


分享到:


相關文章: