可行的AI應用,都要平衡「不可能三角」

在不可預知的開放空間裡,在數據不充分的條件下,實時自主控制系統要確保足夠的安全性、可用性,這就是自動駕駛所要面臨的真實處境。

開放性、確定性、規模化,很難同時兼顧三者,所以稱為『不可能三角』,這也是目前AI 業務通用的底層邏輯。基於現在的 AI 技術範式,特別是在建立AI業務的初始階段,效應更顯著。

首先,讓我們看看WAYMO是怎麼做的,其次,從技術模式的角度探究一下根源,最後,嘗試找出三者間博弈和平衡的正確方法。

一、 實踐是最好的反饋

2015年每跑1300英里就需要1次人工干預,2016年每跑5000英里需要1次人工干預,同比增長了3-4倍。2017年每5596英里需要1次人的干預,僅增長10%。

WAYMO的單位距離DISENGAGE數量減少的幅度和趨勢表明,算法收益增速在邊際降慢,獲得有價值的數據越來越難,突破變得越來越難,這也符合90-90法則,最後10%的性能提升可能需要花之前90%提升所需工作量花費時間的10倍。這正是因為開放環境下的 EDGE CASE 帶來的挑戰。

WAYMO 的方案,技術方面有STRUCTURED TESTING等手段,在商業方面的策略是基於特定場景的用車業務模式,因為這可以提升確定性,即安全性。

選取特定的城市,比如現在是鳳凰城,下一步可能是舊金山。在充分測試和學習後推出出租車服務,而不是一開始就採用賣車的方式。因為車主必然會在開放區域行駛,其中就會包含目前技術上沒驗證過的區域,這會帶來了極大的風險。而市內出租車的起止點還是可控對的,這更符合目前 AI 技術懼怕開放性的特點。

在此基礎上,WAYMO 會不斷拓展不同的ODD(OPERATIONAL DESIGN DOMAINS)和氣候條件(雪天、大雨等),在感知方面最後要突破的最難點當然是 SEMANTIC UNDERSTANDING,真正理解本地化的駕駛規則、與其他司機的協同方式、不同的手勢和信號的不同含義,從而更好更有針對性的理解當下所處環境,包括物理世界環境的感知和人類社會環境的感知,達到更接近人類司機的計算模式。

在開放性、確定性、規模化的衝突之間,WAYMO 選擇了確定性優先,儘量犧牲開放性,以單個限定環境的不斷累加追求規模化,並以漸進的方式最終可以將自動駕駛汽車賣給個體消費者,自由的駕駛在開放性的環境裡。

二、 技術走在邊緣

依賴數據,陷於數據

看起來已經走得很遠的智能算法,最終還是會回溯到統計學最基本的原理。輸入海量樣本的外在描述性淺層表徵,通過反向傳播,藉助不斷突破的算力,以越來越複雜的網絡結構和特徵變換去擬合函數,這個過程也越來越自動化和手段出新,但這次巨大突破的來源也會同時決定了其侷限所在。

基於歷史樣本的模式統計提供預測,機器的準確性來自大規模高質量的輸入,同時會給你少量的輸出,更重要的是,機器能夠準確預測的對象是嚴格限定在樣本輸入所決定的某個領域範圍內的,如果把訓練好的模型使用場景稍作拓展,那麼就需要新的海量數據來重新訓練,對數據量的要求沒有顯著的邊際減少。

這種高度依賴數據也可以從另一個側面體現,過度擬合樣本。在一項測試中,著名的VGG和RESNET這兩個模型在原始數據集上準確率為93%,而在新測試集上降為了85%左右。實驗中的分佈轉移(DISTRIBUTION SHIFT)既不是對抗性的(ADVERSARIAL),也不是不同數據源導致的結果。因此,即使在良性環境中,分佈轉移也會帶來嚴峻的挑戰,目前模型真正的泛化程度好象也沒那麼理想。

複雜網絡不等於知識

問題來自於沒有知識持續積累和進化。分散的,不持續的,在更小更特定的問題上尋求更復雜化的方法,而不是在一個更大的架構下面以越來越簡化的方法去處理某個特定的問題。常識告訴我們,越是通用的東西,越是簡單的,而目前的網絡結構越來越複雜,這個趨勢好象無望解決還變本加厲。即使有類似DROPOUT這種思想,但是還是不能從根本上改變基礎的模式。

雖然還有各種 ZERO SHOT LEARNING, TRANSFER LEARNING 等嘗試,共享部分模型和特徵,但擴展性依然非常有限,並沒有真正在遷移複雜的領域知識,知識是可以靈活的應用在很多背景下,有不同意義闡述的概念,是對元信息有邏輯性的組合連接。

此外,基於統計學的另一個侷限也很明顯,比如有簡單的映射關係,但沒有因果關係,某種意義上你可以認為關聯關係也是知識,但我認為這不是真正的知識,因為它很難靈活遷移。不過最近也有 DEEPMIND 嘗試通過 RELATIONAL MEMORY CORE 來改進關係推理,新的方向也在不斷興起。

關於知識圖譜,對於人類而言是知識,因為對它的靈活解讀能力事實上來自於知識圖譜的使用者,人類的能力。但是,對於機器來說只是某種基於特定樣本的圖計算的結果(或許過於片面),並不會真正的全面領會其中的含義,更談不上靈活應用,所以也就不是『知識』。現在的知識圖譜之於知識,就像電子計算機之於量子計算機。

想強調的是,目前 AI 算法的模式會在特定領域數據上高度依賴,通用知識的提取上還非常有限,橫向擴展的能力還有待提升,基本上沒有舉一反三、一物多用的機會,所以這種三元悖論效應才猶其突出。

基於以上,就有了開放性、確定性、規模化三者的矛盾。但任何變革都不是一蹴而就的,這也不妨礙 AI 在目前已經有巨大的實際應用價值。

三、約束下的選擇

1)基礎平臺

提供類似 AUTOML的機器學習能力,通過降低使用門檻,對用例場景多樣化的支持,獲得規模最大化,形成進一步的生態優勢。具備開放性、規模化,但較低的產品化程度會帶來很多實施過程中的不確定性,結果無法保障,很大程度上取決於開發者自己的綜合應用能力;

2)垂直能力

語音識別API,比如阿里剛剛發佈的DFSMN,實現了LSTM 成為主流以來的又一次升級,將全球語音識別準確率紀錄提高至96.04%,實現了很高的應用效果確定性,從而也會獲得很高的調用量,實現規模化。但相對基礎平臺而言,降低了開放性,無法應用在更廣的場景,即使識別對象同樣是聲音,也無法直接用在識別機器異常和故障信號的工業應用領域;

3)定製解決方案

在行業的早期,一對一的諮詢服務是一種更便於銷售和探索的業務模式,但無法自身單獨成為主要收入來源,需要更完整的業務組合來轉化為更大的商業價值。這個模式具備很高的開放性,例如AIBEE通過個案專家現場諮詢提供高度針對性的解決方案,同時,執行和結果也有很高的確定性,但無法迅速規模化。

總體上,第二種平衡的選擇在當下看起來更流行,不同行業的應用案例基本是在選擇確定性優先,在一個相對垂直的領域基於高質量的數據解決特定的具體問題,儘量的限定開放性,以不同的垂直領域縱向延伸或橫向疊加來追求規模,最後尋求滿足客戶整合性需求的平臺機會。這種路線看起來很難差異化,但對於高度依賴領域數據的人工智能而言,規模領先本身也能帶來差異化和壁壘,但要求能夠迅速的將單純的規模優勢轉化為迭代的勢能、生態的優勢,這種時間窗口往往稍縱即逝。

在藉助 AI 的技術紅利推動業務升級之前,先想清楚如何在這三者之間取捨側重,基本上決定了業務模式的大框架,這種三元導悖論檢視至少可以避免一些大而不見的關鍵隱患,是必要的。

然而這並不足夠,AI 業務的最終的成效取決於你在多大程度上重塑了原有的價值流動,技術只是ENABLER,成敗的另外七成還是取決於採用什麼樣的業務策略來推動這個切換,因為畢竟買單的人總是為一個完整的價值交付付費,而不關心這裡面用的什麼技術。當然前提是你真的選對了領域和發力點。這個以後討論。


分享到:


相關文章: