03.03 AI研習丨陳鬆燦:自監督學習的最新進展與展望

轉自 CAAI會員中心

摘 要

當前我們雖已身處大數據時代,但代價高昂、不易獲取的標記數據依舊是機器學習發展的瓶頸。相比而言,無標記數據廉價且易獲取,因此,如何高效利用它們一直是學者們關注的焦點。最近,一種無監督學習的新範式——自監督學習已開始受到廣泛關注,其旨在減少對大量標記/ 註釋數據的需求。為此本文圍繞該學習範式作出簡要回顧及展望,併力圖從一個新的視角來考察該範式,以期為後續研究提供一些洞察。


關 鍵 字

機器學習;自監督學習;多視圖學習;數據增廣

AI研習丨陳松燦:自監督學習的最新進展與展望

陳松燦 自監督學習的最新進展與展望

0 引言

目前機器學習技術已獲得了令人印象深刻的進展,尤其是深度學習已在計算機視覺和自然語言處理等多個領域取得了突破。然而,它仍存在許多不足。例如,當前許多機器學習技術(如分類)的成功大都處在一個封閉、靜態的環境下,即訓練數據和測試數據來自相同的標記和特徵空間。但更實際的場景通常是動態、開放和非平穩的,如無人駕駛、醫療診斷等。在此類場景下,一些意外情形常會出現,致使這些現有模型往往難以奏效,甚至變得無用。為迎接這些挑戰,學界開始探索諸如安全的AI(Safe AI-Open World/Dynamic Learning)、終身/連續/預測/元學習(Lifelong/Continual/Predictive/ Meta Learning)、遷移學習和域適應(Transfer Learning&Domain Adaptation)等的相關研究,由此產生出了眾多成果。


與此同時,另一個面臨的嚴重侷限是,當前學得的強大模型(特別是深度模型)往往需要大量的帶有註釋/標記的訓練示例,而在眾多實際任務中,收集這樣的數據既耗時又昂貴。在當前大數據背景下,相比代價高昂的標記數據,無標記數據廉價且易獲取。另一方面,正如Yoshua Benjio在MLSS 2014上所指出的那樣,對於成功的機器學習,好的特徵是其本質所在。那麼如何利用這些無標記數據學習好的特徵?常規的手段首選是採用無監督學習。然而,由於監督信號的缺乏,其所學特徵通常難以保證判別性。近年來,一種根據數據的某些屬性自動生成監督信號來引導特徵學習的新範式——自監督學習(Self-Supervised Learning)漸受關注。對此,Yann LeCun在2018國際人工智能聯合會議(IJCAI)的主題演講中特別指出:機器學習的未來不會是監督學習,也不會純粹是強化學習,它更應該是(包含了深度模塊 的)自監督學習。其關鍵想法就是利用所設計的自監督信號幫助學得判別性的特徵。因此,儘管目前發展出了大量針對新場景的機器學習方法,然而鑑於自監督學習範式的重要性和廣泛的可用性,本文更多地關注自監督學習的最新進展,嘗試從一個全新的角度來重新審視自監督學習的實質, 由此為後續研究提供若干洞察。


1 自監督學習

1.1 何為自監督學習

自監督學習(Self-Supervised Learning)是一種介於無監督和監督學習之間的一種新範式,旨在減少對大量帶註釋數據的挑戰性需求。它通過定義無註釋(annotation-free)的前置任務(pretext task),為特徵學習提供代理監督信號。圖1展示了卷積網絡(ConvNet)自監督學習的一般流程,為克服無監督特徵學習的不足,它在訓練階段通過為ConvNet設計一個附有偽標記的前置任務(pretext task)進行求解。因此自監督學習的關鍵在於如何在前置任中引入偽標記,手段之一是根據數據的某些屬性自動生成。在前置任務訓練完成後,可將學得的特徵作為已訓練的模型進一步遷移到下游任務(downstream tasks),使其獲得更好的解的起點。

AI研習丨陳松燦:自監督學習的最新進展與展望

圖 1 卷積網絡自監督學習的一般流程務

1.2 常用的前置任務

針對ConvNet前置任務的訓練,已提出了許多無需人工標註的方法,這些方法使用各種線索和代理任務,包括前景對象分割(foreground object segmentation)、 圖像修補(image inpainting)、聚類(clustering)、圖像著色(image colorization)、拼圖遊戲(jigsaw puzzles)、噪聲作為目標(noise-as-targets)、預測編碼(predicting coding)和預測旋轉(predicting rotation)等。此外,也有許多方法使用額外的信息來學習特徵(比如對於視頻,其內含的時間信息用作自監督信息)。目前典型的前置任務有基於時間上下文(temporalcontext)、基於時空線索(spatio-temporal cues)、基於光流(optical-flow)、基於未來幀合成(futureframe synthesis)、基於視頻的音頻預測(audio prediction from video)、基於音頻-視頻對齊 (audio-video alignment)信息、基於自我運動估計 (ego-motion estimation),以及採用高階時間相干性的慢特徵分析(slow feature analysis with higher order temporal coherence)等。更多細節,參見最近自監督學習的綜述。


1.3 廣泛的應用場景

當前自監督學習被廣泛用於語義分割、目標檢測、圖像分類和人體動作識別等。同時,作為一種輔助性的學習任務,最近已被擴展到域適配(Domain Adaptation)、少樣本或零樣本學習(Few/Zero-shot Learning)、分佈外檢測(Out-ofDistribution Detection) 、生成對抗網絡和圖卷積網絡等學習場景。


2 對自監督學習的重新審視

最近有學者分別從卷積網絡和魯棒學習的角度剖析了自監督學習的內含,對此簡要梳理如下。


2.1 卷積網絡 (CNN) 的角度

Kolesnikov等學者通過研究多種網絡結構與 多種自監督學習前置任務的組合得到以下啟發性的經驗結論。


(1)與監督學習不同,自監督學習任務的 性能顯著依賴於所使用的卷積網絡(CNN)的結構,例如,對於rotation預測,RevNet50性能最好;但是對於jigsaw預測,ResNet50v1性能最好。


(2)相比於AlexNet(在網絡末端特徵質量會下降),具有skip-connections結構的網絡(如ResNet),高層特徵的性能不會下降。


(3)增加CNN模型中濾波器的數量,可顯著提高所學特徵的質量。


(4)所訓練線性模型的評估過程非常依賴學習率的調整策略。另外,作者實驗驗證了前置任務更好的性能,並不總能轉化為下游任務更好的特徵表示。


2.2 魯棒學習的角度

Hendrycks等學者從魯棒學習的角度重新剖析了自監督學習。他們發現自監督學習可以通過多種方式提高魯棒性,包括對抗樣本的魯棒性、標籤損壞(label corruption)的魯棒性和常見輸入損壞(common input corruptions)的魯棒性等。此外,自監督學習在困難的、近分佈的(neardistribution)異常點的分佈外檢測中也大有益處,以至於超過了完全監督方法的性能。這些結果顯示了自監督學習在提高魯棒性和不確定性估計方面的前景,同時也為將來自監督學習的研究提供了新的評估方式。


3 多視圖視角——我們的視角

通過引入自監督標籤/信號來為下游任務學得有效的特徵表示,自監督學習確實顯著地提高了下游任務的學習性能。但是現階段如何設計前置任務,或如何進一步提高自監督學習方法的性能,仍是一個很大的問題。據我們所知,當前仍缺乏相關理論對其設計進行指導。


事實上,從多視圖角度看,自監督學習中引入的自監督信號實質上是對原始數據進行了各種變換(如旋轉、著色和拼圖等)從而產生多個變換數據(可視為多個視圖數據),這恰好落入我們早期提出的單視圖的多視圖學習框架。換句話說,自監督學習的本質就是對原數據進行多視角的數據增廣,這不同於傳統的數據增廣,因為它考慮到了所附的自監督信號。從該視角來看,我們相信在理論上能借鑑已有的多視圖學習理論,彌補自監督學習理論的缺乏,並對其進一步拓展。


(1)解釋現有自監督任務(如圖像修補、著色)在某些學習任務性能不佳的原因,即這些變換實際產生了相對原數據信息缺失的不完全視圖數據,從而對某些下游任務的執行造成干擾。因此,如何聚合這些有缺陷視圖數據提升自監督學習值得深入研究。


(2)產生更加多樣性的自監督信號,比如通過變換合成,可對數據示例作變換的複合/嵌 套/層次等運算。


(3)除了在數據層面,還可在模型層面(如擾動模型)、優化算法層面、任務層面等進行自監督學習的開拓;


(4)針對多層網絡,不僅在其輸入層,而且對其各內層進行自監督信息的生成等。對上述幾點,我們正在進行初步探索。


反過來看,自監督學習充分利用自監督信號 (從多視圖視角看就是視圖標記),同樣啟發我們探索多視圖學習中視圖標記的利用。當前幾乎所有多視圖學習都忽略了視圖標記這一附帶信息,這值得進一步深入討論。另外,它也為產生同構的多視圖數據提供了一種手段。


4 結束語

面對當前的挑戰,眾多針對新場景的機器學習算法研究已取得突破性進展,然而限於文章有限的篇幅和本人能力的侷限,本文主要關注自監督學習,並嘗試從一個新的視角——多視圖視角來重新審視它,由此為其後續研究提供一些思路。

(參考文獻略)


選自《中國人工智能學會通訊》

2020年 第10卷 第1期 特約專欄


陳松燦

南京航空航天大學教授、CAAI機器學習專委會主任、IAPR/CAAI Fellow



分享到:


相關文章: