「乾貨」世界級專家陳雨強:人工智能工業應用的痛點及解決思路!

人工智能是一個非常炙手可熱的名詞,且已經成功應用在語音、圖像等諸多領域。但是,現在人工智能有沒有達到可以簡單落地的狀態呢?工業界的人工智能需要什麼技術呢?本篇活動家就為大家帶來《人工智能工業應用痛點及解決思路》的主題分享。找人工智能大會就上活動家,歡迎分享或收藏本文。

分享嘉賓:陳雨強

以下為PPT內容:

我們先探討一下工業界人工智能需要一個什麼樣的系統?人工智能的興起是由於數據量變大、性能提升以及並行計算技術發展共同產生的結果。所以,工業界的問題都是非常複雜的。因此,我們需要一個可擴展系統,不僅在吞吐與計算能力上可擴展,還需要隨著數據量與用戶的增多在智能水平上可擴展。

「乾貨」世界級專家陳雨強:人工智能工業應用的痛點及解決思路!

怎麼實現一個可擴展系統呢?其實很重要的一點是工業界需要高VC維的模型,去解決智能可擴展性的問題。怎麼獲得一個高VC維的模型呢?大家都知道,機器學習=數據+特徵+模型。如果數據在給定的情況下,我們就需要在特徵和模型兩個方面進行優化。

「乾貨」世界級專家陳雨強:人工智能工業應用的痛點及解決思路!

特徵共分兩種,一種叫宏觀特徵,比方說年齡、收入,或是買過多少本書,看過多少部電影。另外一種是微觀特徵,指的是比擬細粒度的特徵,你具體看過哪幾本書,或者具體看過哪幾部電影。每一部電影,每一本書,每一個人,都是不同的特徵。書有幾百萬本,電影有幾百萬部,所以這樣的特徵量非常大。

模型可分為兩類,一個是簡單模型,比如說線性模型。還有一種是複雜模型,比如非線性模型

「乾貨」世界級專家陳雨強:人工智能工業應用的痛點及解決思路!

這樣就把人工智能分為了四個象限。如上圖,左下角是第一象限,使用宏觀特徵簡單模型解決問題。這種模型在工業界應用非常少,因為它特徵數少,模型又簡單,VC維就是低的,不能解決非常複雜的問題。右下角的第二象限是簡單模型加上微觀特徵,最有名的就是大家熟知的谷歌Adwords,用線性模型加上千億特徵做出了世界頂尖的廣告點擊率預估系統。左上角的第三象限是複雜模型加宏觀特徵,也有諸多知名公司做出了非常好的效果,例如Bing廣告和Yahoo,經典的COEC+複雜模型在這個象限內是一個慣用手段。最後是第四象限,利用複雜模型加上微觀特徵,由於模型空間太大,如何計算以及解決過擬合都是研究的熱點。

「乾貨」世界級專家陳雨強:人工智能工業應用的痛點及解決思路!

「乾貨」世界級專家陳雨強:人工智能工業應用的痛點及解決思路!

剛才說沿著模型和特徵兩條路走,那如何沿著模型做更高維度的機器學習呢

研究模型主要是在學術界,大部分的工作是來自於ICML、NIPS、ICLR這樣的會議,非線性有三把寶劍分別是Kernel、Boosting、Neural Network。Kernel在十年前非常火,給當時風靡世界的算法SVM提供了非線性能力。Boosting中應用最廣泛的當屬GBDT,很多問題都能被很好地解決。Neural Network在很多領域也有非常成功的應用。

工業界優化模型的方法總結起來有以下幾點。

首先,基於過去的數據進行思考得到一個假設,然後將假設的數學建模抽象成參數加入,用數據去擬合新加入的參數,最後用另一部分數據驗證模型的準確性。

到底是深度模型好還是寬度模型好呢?這裡有一個沒有免費的午餐定理:不存在萬能的模型

「乾貨」世界級專家陳雨強:人工智能工業應用的痛點及解決思路!

簡單來說,世界上不存在一個優化算法對任何問題上都有效,也就是說我們總能找到一個問題,讓這個優化算法表現的並不比隨機的更好。更進一步的說,所有的機器學習都是一個偏執,代表了對這個世界的認知。如果數據較少,這個偏執就需要比較強。比如說科學家觀測物理現象,數據並不是特別多。這種情況下,你需要大量的理論和猜想,有少量數據做擬合驗證就可以了。但如果假設錯的話,就可能出現錯誤的結論。比如用地心論研究天體物理的話,就發現結論都是錯的。但是如果數據很多,我們就不需要很強的偏置,將更多的不確定性加入模型,自動的通過數據進行擬合。綜合起來,工業界的機器學習裡面並沒有免費的午餐,不存在哪一個模型是萬能的模型。所以說你一定要根據你的業務做出合適的選擇,才是最好的一個方式。

「乾貨」世界級專家陳雨強:人工智能工業應用的痛點及解決思路!

人工智能落地的關鍵:提高AI的易用性

人工智能目前還遠沒有達到可以遍地開花的程度,即使解決了剛才講的寬與深的問題,我們依然還有很多事情要做。如何訓練出好的模型、如何去選擇好的參數、如何進行特徵組合,都不是一件容易的事情。

「乾貨」世界級專家陳雨強:人工智能工業應用的痛點及解決思路!

「乾貨」世界級專家陳雨強:人工智能工業應用的痛點及解決思路!

「乾貨」世界級專家陳雨強:人工智能工業應用的痛點及解決思路!

「乾貨」世界級專家陳雨強:人工智能工業應用的痛點及解決思路!

「乾貨」世界級專家陳雨強:人工智能工業應用的痛點及解決思路!

如何解決特徵工程

如何降低這些門檻呢?這裡分享一下第四範式的成果。首先特徵工程是工業界應用AI的巨大的難關。特徵工程的目標是針對於某個模型找出與要解決問題相關的關鍵屬性,現在也有一些開源的項目嘗試解決特徵工程,下圖就列出了Spark 2.2官方文檔中包含的特徵工程算法。那麼,針對不同的業務、不同的模型,這些算子就足夠我們低門檻建模了嗎?

「乾貨」世界級專家陳雨強:人工智能工業應用的痛點及解決思路!

「乾貨」世界級專家陳雨強:人工智能工業應用的痛點及解決思路!

「乾貨」世界級專家陳雨強:人工智能工業應用的痛點及解決思路!

「乾貨」世界級專家陳雨強:人工智能工業應用的痛點及解決思路!

「乾貨」世界級專家陳雨強:人工智能工業應用的痛點及解決思路!

「乾貨」世界級專家陳雨強:人工智能工業應用的痛點及解決思路!

「乾貨」世界級專家陳雨強:人工智能工業應用的痛點及解決思路!

「乾貨」世界級專家陳雨強:人工智能工業應用的痛點及解決思路!

「乾貨」世界級專家陳雨強:人工智能工業應用的痛點及解決思路!

「乾貨」世界級專家陳雨強:人工智能工業應用的痛點及解決思路!

「乾貨」世界級專家陳雨強:人工智能工業應用的痛點及解決思路!

還沒看夠或看懂?點擊右上角,關注活動家,及時獲取大會嘉賓演講乾貨及視頻!

精彩閱讀:




分享到:


相關文章: