05.29 進入深度學習之前,想清楚這些問題!

摘要: 想學深度學習?心裡能沒點啥數嗎?

特別說明:這篇文章是為了解決那些對於深度學習完全陌生並且正在計劃進入這個領域的人。其目的是幫助他們批判性地思考該領域的複雜性,並幫助他們區分哪些是真正困難的事情,哪些是微不足道的事情。在我撰寫和發表這篇文章時,我意識到這篇文章的語氣過於挑釁,而且我不是一個好的作家,沒有能力寫一篇發人深省的文章。所以請用寬恕的心態來閱讀文章。

現在我遇到很多想進入機器學習/人工智能領域的人,尤其是深度學習領域。有些人問我開始學習的最好方法是什麼。顯然,隨著事情的發展,似乎沒有人能夠擁有足夠的時間獲得博士學位。而且在大學中做這方面的技術研究,有時候會感覺到在應用程序,技術和基礎設施方面有點落後,所以這也就是為什麼人工智能的大師們都在科技巨頭任職的原因。現在幾乎每家科技巨頭都給博士生提供職位,延長實習期,這可以讓你在沒有博士學位的情況下在機器學習領域取得成功的職業生涯。你最好的選擇是什麼取決於你自身的情況,但也取決於你想達到的目標。總之,擁有博士的頭銜進入深度學習領域,你必須要沉得住氣,因為你比其他人走的更深,同時花費的時間也需要更多。

有些事情其實很簡單

我發現自己給予他人深度學習的一般建議是:深度學習很容易。在不選擇一些難學的領域時,學習神經網絡不應該成為目標,而是一種順帶手完成的事情。比如現在的學習python,你就可以順手學習一些深度學習。但是,你必須要有一個這樣的認知:

深度學習是強大的,因為它讓事情變得簡單。

深度學習為什麼這樣的原因是,它允許我們將幾個以前不可能完成的的學習問題稱為過度擬合的問題,通過梯度下降將其影響最小化,這在理論上是超級簡單的事情。深度學習處理我們之前無法處理的自然信號包括:圖像、視頻、人類語言、語音、聲音。但是幾乎無論你想要在深度學習中完成什麼目標,總能在很短的時間內完成:你將幾個需要構建模塊和想法(卷積、合併、復發)結合起來,如果你有足夠的數據,你可以很快的將解決它。像TensorFlow、Theano、Lasagne、Blocks、Keras等越來越高級的開源性框架,將幫助你實現你的想法,達到你的目的。

進入深度學習之前,想清楚這些問題!

挑選更難的東西

這並不是說沒有真正的新穎想法來自深度學習,也不是說深度學習就是今天發展的這個樣子。在進行深度學習的時候,我們也會遇到多方面的問題,解決這些問題應該是更具挑戰性。比如,生成敵對網絡和變分自動編碼器是引起對概率/生成建模新興趣的出色例子。理解為什麼/如何工作,以及如何推廣/構建它們真的很難。同樣,在理解這些深層神經網絡為什麼以及如何真正起作用方面還有更多令人興奮的研究方向。

在這個領域還有另外一種感覺,低級的深度學習正在消失。建立用於監督學習的深度神經網絡,雖然仍在改進中,但是現在很多人認為那是很無聊的工作或許多人都能完成監督學習模型的構建(這是一個大膽的陳述,當然遠非如此),今天我們可以看到,模型的構建門檻已經低到一箇中學生都能夠完成,但是鑑於數據標註的問題,模型的精準度是一個巨大的挑戰。所以,下一個目標就是無監督學習模型的構建,無監督學習模型肯定會從深度學習工具包中受益,但它的發展也需要一種截然不同的思維方式,比如說需要熟悉信息論/概率/幾何等知識。洞察如何使這些方法真正起作用的思維方式,不大可能來自對目前神經網絡架構的改進,而是會以一種腦洞形式的思維方式開始。

我個人認為今天大多數人通過學習深度學習,意味著他們正在學習使用一個相對簡單的工具箱。在六個月的時間裡,許多人會擁有這些技能。這些人沒有必要花時間研究/學習那些太基礎的東西,因為你可能會錯過對工作產生真正影響的機會。把深度學習當成一個工具,而不是一個養家餬口的技術,這應該是未來的一個趨勢。

迴歸本源

什麼是最難學的例子?想想Ian Goodfellow,Durk Kingma等作者在提出前面提到的算法時所使用的知識,現在重新發現的大部分相關內容在2000年初都進行了積極的研究。或許我們都應該回顧學習一下經典的算法,如EM算法、變分推理、線性高斯系統的無監督學習、主成分分析、因子分析、卡爾曼濾波、慢特徵分析。我個人也可以推薦Aapo Hyvarinen關於ICA的論文,如果你想了解一些關於深度學習前沿的技術,你應該嘗試閱讀(並理解)這個開創性的深層信念網絡論文

快速進階到下一個技術邊界

雖然深度學習是最近發生的最有趣的突破,但我們也嘗試押注未來可能獲得相關性的領域:

· 概率編程和黑箱概率推理(帶或不帶深度神經網絡):如果對此領域的技術感興趣可以關注一下Picture或者Josh Tenenbaum關於反向圖形網絡的論文或者在NIPS研討會上介紹黑盒推理。在這裡我需要引用我的一個朋友的話:

概率編程可以為貝葉斯ML提供Theano所做的工作

· 使用或不使用深度神經網絡的MCMC和變分推理方法更好且可擴展。最近有很多關於這方面的工作。如果我們讓MCMC像隨機梯度下降一樣可靠,那麼現在對於深層神經網絡來說,這可能意味著更多顯性貝葉斯概率模型和分層圖形模型的復甦,其中RBM僅僅是一個例子。

我以前見過這個嗎?

同樣的事情發生在幾年前,這已經成為數據科學家的流行語。最初,使用Hadoop,Hive等是一件大事,幾位早期的使用者取得了非常成功的職業生涯。在早期,你真正需要做的就是對小型分佈式集群進行計數,並且你很快積累了成千上萬的追隨者,他們崇拜你是大數據先驅。

那時候人們看起來很瘋狂,但從幾年後就沒有開始的新鮮感了,因為很多人現在都在使用Hadoop,而且現在Hadoop也有了新的競爭對手,像Amazon的Redshift這樣的工具讓事情變得更簡單。在那些日子裡,除非你以一種有趣的方式使用這些技術,否則這種技術優勢會很快消失。在炒作週期的頂部,有數據科學實習、住宿訓練計劃、夜校培訓計劃等等。當你完成這些所謂的速成技術培訓時,這些技能其實正在變得毫無意義和微不足道。現在深度學習的發展過程看起來跟它們非常相似。

總之,如果你即將進入深度學習,想想這意味著什麼,並嘗試更加具體項目。想想現在還有多少人在你的位置上,你將如何確保你學到的東西能夠真正的為你創造價值。

總結

深度學習的研究領域涉及機器學習、統計學、優化、幾何學等許多有趣的且非常複雜的課題。大多數人可能遇到的深度學習——樂高積木式的深度學習,它們是相對簡單的,沒有任何競爭力的。換句話說,這種深度學習將在未來幾年成為一種基本的技能,並不能體現出你的與眾不同的價值。如果你對這個領域完全陌生,重要的是要看到超越這個簡單的表面,並選擇一些更難掌握的概念。

本文由阿里云云棲社區組織翻譯。

文章原標題《Deep Learning is Easy - Learn Something Harder》,


分享到:


相關文章: