03.03 AI研習丨陳鬆燦：自監督學習的最新進展與展望

2020-03-03 20:49:26 中國人工智能學會

轉自 CAAI會員中心

摘要

當前我們雖已身處大數據時代，但代價高昂、不易獲取的標記數據依舊是機器學習發展的瓶頸。相比而言，無標記數據廉價且易獲取，因此，如何高效利用它們一直是學者們關注的焦點。最近，一種無監督學習的新範式——自監督學習已開始受到廣泛關注，其旨在減少對大量標記/ 註釋數據的需求。為此本文圍繞該學習範式作出簡要回顧及展望，併力圖從一個新的視角來考察該範式，以期為後續研究提供一些洞察。

關鍵字

機器學習；自監督學習；多視圖學習；數據增廣

陳松燦自監督學習的最新進展與展望

0 引言

目前機器學習技術已獲得了令人印象深刻的進展，尤其是深度學習已在計算機視覺和自然語言處理等多個領域取得了突破。然而，它仍存在許多不足。例如，當前許多機器學習技術(如分類)的成功大都處在一個封閉、靜態的環境下，即訓練數據和測試數據來自相同的標記和特徵空間。但更實際的場景通常是動態、開放和非平穩的，如無人駕駛、醫療診斷等。在此類場景下，一些意外情形常會出現，致使這些現有模型往往難以奏效，甚至變得無用。為迎接這些挑戰，學界開始探索諸如安全的AI(Safe AI-Open World/Dynamic Learning)、終身/連續/預測/元學習(Lifelong/Continual/Predictive/ Meta Learning)、遷移學習和域適應(Transfer Learning&Domain Adaptation)等的相關研究，由此產生出了眾多成果。

與此同時，另一個面臨的嚴重侷限是，當前學得的強大模型(特別是深度模型)往往需要大量的帶有註釋/標記的訓練示例，而在眾多實際任務中，收集這樣的數據既耗時又昂貴。在當前大數據背景下，相比代價高昂的標記數據，無標記數據廉價且易獲取。另一方面，正如Yoshua Benjio在MLSS 2014上所指出的那樣，對於成功的機器學習，好的特徵是其本質所在。那麼如何利用這些無標記數據學習好的特徵？常規的手段首選是採用無監督學習。然而，由於監督信號的缺乏，其所學特徵通常難以保證判別性。近年來，一種根據數據的某些屬性自動生成監督信號來引導特徵學習的新範式——自監督學習(Self-Supervised Learning)漸受關注。對此，Yann LeCun在2018國際人工智能聯合會議(IJCAI)的主題演講中特別指出：機器學習的未來不會是監督學習，也不會純粹是強化學習，它更應該是(包含了深度模塊的)自監督學習。其關鍵想法就是利用所設計的自監督信號幫助學得判別性的特徵。因此，儘管目前發展出了大量針對新場景的機器學習方法，然而鑑於自監督學習範式的重要性和廣泛的可用性，本文更多地關注自監督學習的最新進展，嘗試從一個全新的角度來重新審視自監督學習的實質，由此為後續研究提供若干洞察。

1 自監督學習

1.1 何為自監督學習

自監督學習(Self-Supervised Learning)是一種介於無監督和監督學習之間的一種新範式，旨在減少對大量帶註釋數據的挑戰性需求。它通過定義無註釋(annotation-free)的前置任務(pretext task)，為特徵學習提供代理監督信號。圖1展示了卷積網絡(ConvNet)自監督學習的一般流程，為克服無監督特徵學習的不足，它在訓練階段通過為ConvNet設計一個附有偽標記的前置任務(pretext task)進行求解。因此自監督學習的關鍵在於如何在前置任中引入偽標記，手段之一是根據數據的某些屬性自動生成。在前置任務訓練完成後，可將學得的特徵作為已訓練的模型進一步遷移到下游任務(downstream tasks)，使其獲得更好的解的起點。

圖 1 卷積網絡自監督學習的一般流程務

1.2 常用的前置任務

針對ConvNet前置任務的訓練，已提出了許多無需人工標註的方法，這些方法使用各種線索和代理任務，包括前景對象分割(foreground object segmentation)、圖像修補(image inpainting)、聚類(clustering)、圖像著色(image colorization)、拼圖遊戲(jigsaw puzzles)、噪聲作為目標(noise-as-targets)、預測編碼(predicting coding)和預測旋轉(predicting rotation)等。此外，也有許多方法使用額外的信息來學習特徵(比如對於視頻，其內含的時間信息用作自監督信息)。目前典型的前置任務有基於時間上下文(temporalcontext)、基於時空線索(spatio-temporal cues)、基於光流(optical-flow)、基於未來幀合成(futureframe synthesis)、基於視頻的音頻預測(audio prediction from video)、基於音頻-視頻對齊 (audio-video alignment)信息、基於自我運動估計 (ego-motion estimation)，以及採用高階時間相干性的慢特徵分析(slow feature analysis with higher order temporal coherence)等。更多細節，參見最近自監督學習的綜述。

1.3 廣泛的應用場景

當前自監督學習被廣泛用於語義分割、目標檢測、圖像分類和人體動作識別等。同時，作為一種輔助性的學習任務，最近已被擴展到域適配(Domain Adaptation)、少樣本或零樣本學習(Few/Zero-shot Learning)、分佈外檢測(Out-ofDistribution Detection) 、生成對抗網絡和圖卷積網絡等學習場景。

2 對自監督學習的重新審視

最近有學者分別從卷積網絡和魯棒學習的角度剖析了自監督學習的內含，對此簡要梳理如下。

2.1 卷積網絡 (CNN) 的角度

Kolesnikov等學者通過研究多種網絡結構與多種自監督學習前置任務的組合得到以下啟發性的經驗結論。

（1）與監督學習不同，自監督學習任務的性能顯著依賴於所使用的卷積網絡(CNN)的結構，例如，對於rotation預測，RevNet50性能最好；但是對於jigsaw預測，ResNet50v1性能最好。

（2）相比於AlexNet(在網絡末端特徵質量會下降)，具有skip-connections結構的網絡(如ResNet)，高層特徵的性能不會下降。

（3）增加CNN模型中濾波器的數量，可顯著提高所學特徵的質量。

（4）所訓練線性模型的評估過程非常依賴學習率的調整策略。另外，作者實驗驗證了前置任務更好的性能，並不總能轉化為下游任務更好的特徵表示。

2.2 魯棒學習的角度

Hendrycks等學者從魯棒學習的角度重新剖析了自監督學習。他們發現自監督學習可以通過多種方式提高魯棒性，包括對抗樣本的魯棒性、標籤損壞(label corruption)的魯棒性和常見輸入損壞(common input corruptions)的魯棒性等。此外，自監督學習在困難的、近分佈的(neardistribution)異常點的分佈外檢測中也大有益處，以至於超過了完全監督方法的性能。這些結果顯示了自監督學習在提高魯棒性和不確定性估計方面的前景，同時也為將來自監督學習的研究提供了新的評估方式。

3 多視圖視角——我們的視角

通過引入自監督標籤/信號來為下游任務學得有效的特徵表示，自監督學習確實顯著地提高了下游任務的學習性能。但是現階段如何設計前置任務，或如何進一步提高自監督學習方法的性能，仍是一個很大的問題。據我們所知，當前仍缺乏相關理論對其設計進行指導。

事實上，從多視圖角度看，自監督學習中引入的自監督信號實質上是對原始數據進行了各種變換(如旋轉、著色和拼圖等)從而產生多個變換數據(可視為多個視圖數據)，這恰好落入我們早期提出的單視圖的多視圖學習框架。換句話說，自監督學習的本質就是對原數據進行多視角的數據增廣，這不同於傳統的數據增廣，因為它考慮到了所附的自監督信號。從該視角來看，我們相信在理論上能借鑑已有的多視圖學習理論，彌補自監督學習理論的缺乏，並對其進一步拓展。

（1）解釋現有自監督任務(如圖像修補、著色)在某些學習任務性能不佳的原因，即這些變換實際產生了相對原數據信息缺失的不完全視圖數據，從而對某些下游任務的執行造成干擾。因此，如何聚合這些有缺陷視圖數據提升自監督學習值得深入研究。

（2）產生更加多樣性的自監督信號，比如通過變換合成，可對數據示例作變換的複合/嵌套/層次等運算。

（3）除了在數據層面，還可在模型層面(如擾動模型)、優化算法層面、任務層面等進行自監督學習的開拓；

（4）針對多層網絡，不僅在其輸入層，而且對其各內層進行自監督信息的生成等。對上述幾點，我們正在進行初步探索。

反過來看，自監督學習充分利用自監督信號 (從多視圖視角看就是視圖標記)，同樣啟發我們探索多視圖學習中視圖標記的利用。當前幾乎所有多視圖學習都忽略了視圖標記這一附帶信息，這值得進一步深入討論。另外，它也為產生同構的多視圖數據提供了一種手段。

4 結束語

面對當前的挑戰，眾多針對新場景的機器學習算法研究已取得突破性進展，然而限於文章有限的篇幅和本人能力的侷限，本文主要關注自監督學習，並嘗試從一個新的視角——多視圖視角來重新審視它，由此為其後續研究提供一些思路。

（參考文獻略）

選自《中國人工智能學會通訊》

2020年第10卷第1期特約專欄

陳松燦

南京航空航天大學教授、CAAI機器學習專委會主任、IAPR/CAAI Fellow

分享到:

閱讀更多 中國人工智能學會 的文章

關鍵字: 研習設計陳松燦

最新進展：廣東餐協外賣專委會就致美團交涉函再次說明

蘋果“降速門”最新進展蘋果同意支付5億美元僅限美國iphone用戶消費者可獲25美金

02.28 “中國無人駕駛第一案”最新進展：百度撤訴王勁

最新進展：華為部分業務已恢復運行！富士康宣佈正在試產口罩

小米即將召開 2019 小米開發者大會，全面展示 AIoT+5G 最新進展

郭臺銘「造芯」最新進展：四大產品線首次亮相，佈局架構曝光

華爲實力回應，「綠屏門」最新進展，又讓國人驕傲了一回！

最新進展：劉強東美國律師：他99%幾率不會被起訴警方或道歉

09.04 最新進展：劉強東不會被起訴，或將收到美國警方道歉

最新進展：美國又搞事情了，逮捕了中國電商巨頭劉強東

小米手機 5S Plus升級安卓 O 最新進展

小米太無恥了。

小米高管不只口嗨了，在國內拳打友商，在國外卻開始下跪了。下一步，我猜小米會喊，高通爸爸，人家愛死你了，人家已經五體投地了喲。

蹭熱點！說說我理解的手機包裝盒事件。

今早醒來刷頭條，發現大批米系自媒體鋪天蓋地發文嘲諷華為系自媒體，忍不住好奇瞭解了一下情況，原來是剛發佈的一加8 海外版手機的手機包裝盒上面印了一句話:with easy access to the Google apps you use most.而這句話也印在前段時間發佈的小

蘋果公司正式發佈iPhone SE二代手機

新品名為“iPhoneSE”，擁有跟iPhone 8相似的外觀，搭載了蘋果當前最新的A13仿生芯片，具備IP67級別防水防塵能力，配備4.7英寸LCD材質屏幕，支持原彩顯示，配備了Touch ID指紋識別。

華為河圖、麒麟芯片和鴻蒙OS三駕馬車並行？華為生態建設佈局深遠

至於受很多人關注的華為河圖全面落地問題，官方有消息稱，2020年第二季度會提供100個華為河圖測試點，測試點到第四季度會增加至1000個，測試覆蓋空間包括智慧園區、旅遊景點、高鐵站和機場等。

小米高管表示，四千毫安時 5G 手機，和三千多毫安時 4G 手機一樣

小米科技高管盧偉冰在近日表示，5G旗艦手機如果5G網絡全開，功耗會比4G手機高20%，4000mAh的5G手機大約等於4G手機的3200mAH；今年Redmi堅持把5G手機的容量控制在4500mAh以上，也是考慮到5G網絡耗電大的原因，今年很多5G智能手機均採用大電池的設計。

5G畫風變了：麒麟985落地首跑，榮耀坐上開往高端的「地鐵」

榮耀30Pro/30 Pro+同時搭載麒麟990 5G SoC，相應的其它配置更高：Wi-Fi6+，支持紅外遙控，USB 3.0 Type-C接口。

旗艦手機標配Wifi 6 換Wifi 6路由器的時機到了嗎？

現在，家庭寬帶都在500M左右，大部分手機也不支持Wifi6標準，換Wifi 6無線路由器有點早，因為換了Wifi 6無線路由器網速也不會變快。

2020年5G手機賣不動？繼蘋果砍單25%之後，華為小米紛紛跟砍？

都說蘋果手機賣不動了，可我看想買iPhone手機的人還是那麼多，不然之前蘋果公司怎麼會限購？數據顯示，3月份在國內的 iPhone 銷量比 2 月份激增 416%，達到約 250 萬部。

幹翻華為P40系列榮耀30也玩中

而今天的華為發佈會上，榮耀30、30 Pro、30 Pro +3個版本中、大、特大杯齊亮相，又一片全新5G SOC，麒麟985也要登場。

程序員辭互聯網工作，跨行傳統上市公司，上班第1天就蒙了

原來男子是從事互聯網工作，後面覺得是互聯網寒冬來了，就堅決辭去互聯網工作，跨行選擇了一個教育傳統上市公司，可是第1天上班就蒙了，公司讓做的活兒太死板了，沒有發揮空間，同事一點都不友善，領導不放權，而且管理線超級單一，氛圍一點都不一樣，所以想離職。

蘋果發佈新款iPhoneSE，3299元起售

北京時間4月15日晚，蘋果正式發佈了新款iPhone SE，搭載了A13仿生芯片，支持最新的iOS 13系統，支持 18W快充，也支持Qi無線充電。SE機型蘋果到目前為止只發布了兩款，這是iPhone產品體系裡小屏和低價的典型機器。

我很糾結：我究竟適不適合做亞馬遜電商？看了這三條你就知道了

請仔細閱讀，關於跨境電商你想知道的都在這兒

政府對於跨境電商行業的大力支持給咱們廣大跨境電商賣家吃了一顆“定心丸”。我們所做的跨境電商事業在一定程度上不再是為個人謀利益，而是成為了中國產品走向世界，為國家賺取外匯的主力軍。

騙子手段太“精明”：商家賠了貨物又賠款，亞馬遜平臺騙術大揭祕

在開始文章的乾貨分享之前，先給大家講一個商家被用戶勒索的案例。有一位朋友剛剛加入亞馬遜跨境電商平臺兩個多月，在這期間有位美國用戶在他店鋪裡面購買了一個毛巾架。

做跨境電商這麼多年，今天才知道給國外客戶發文件原來這麼簡單

做過跨境電商朋友肯定知道，很多國外客戶對於有些商品看不懂說明書，想索要商品使用視頻教程，畢竟視頻信息量大，容易理解和快速上手。

值得收藏！三類賣家三種選品方案，總有適合你的一個……

網上很多所謂的“大佬”喜歡吹噓用某某工具就可以迅速選品效率，迅速取得很高效率等等，其實這類人就是在賣軟件，收培訓費用…

萬萬沒想到！亞馬遜平臺上面賣床單竟營收一個億！你還在等什麼？

做店鋪這麼多年，今天才知道我的listing突然被封，竟是因為……

亞馬遜小白看過來！請採納這些：亞馬遜選品和運營的小建議

亞馬遜賣家如何爆單？跨境精細化運營攻略必看

不收保證金、入住費、年費，還免三個月佣金，我也想入駐這個平臺

咱們今天不說主打歐美市場的亞馬遜，只談一下以東南亞市場為主的Shopee。好多人都聽說過，但是沒有真正瞭解過，好多人想加入Shopee但是顧慮重重，今天我來給大家普及一下關於Shopee小秘密。

馬雲終於要辭職了，留下的話句句觸動人心

去年，在教師節這天，阿里巴巴集團創始人馬雲今天公開信宣佈：一年後的阿里巴巴20週年之際，即2019年9月10日，也就是今天，他將不再擔任集團董事局主席，卻留下句句觸動心靈的話！！

等等，明年5G手機將迎來大降價

11月26日下午，聯發科技（MediaTek）在深圳舉辦“聯發科技 5G方案發布暨全球合作伙伴大會”，正式發佈了全新的5G新芯片品牌——“天璣”，同時帶來了首款集成式旗艦級5G移動平臺——天璣1000。

微信公開課PRO版2019正在進行時，往屆各自都有什麼黑科技

微信公開課pro版2019，為期兩天微信大會正在廣州火熱進行中，本次會議主題為：同行WITHUS。微信這一款超級應用，已經深入到我們生活的方方面面，所以這48小時的未來盛宴必將吸引無數眼球。

推出「信任分」升級「閃購」，美團本地生活這盤棋有多大？

小海按：美團的超級App夢想更近了？Tech星球文 | 馬微冰陳橋輝頭圖 | IC Photo王興曾說，“太多人關注邊界，而不關注核心。”

5G我們超越了6G我們也將領先! 美國為什麼會害怕失去5G領導地位呢

而且在我們國內和美企中，有相當一部分覺得我們研發不了5G，更特說超越他們了。由於，我們在科技領域一直是，裝備一代，研發一代，探索一代。

界讀｜華為：幫助英國共渡疫情難關，無端批評令英國蒙受損失

前段時間，英國首相呼籲員工在家辦公的第二天，英國網絡就出現大面積崩潰現象，不僅無法正常上網，而且電話也不能打、短信也不能發，給用戶造成了很大的困擾。

為什麼華為今天可以傲視群雄，在世界上立於不敗之地？

為什麼華為今天可以傲視群雄，在世界上立於不敗之地？因為五年內沒有人能超過整個5G領域，所以美國人無法超越，為什麼？

血戰「在線辦公」，阿里、騰訊、字節、華為的底牌與大殺器

小海按：前端殺手級應用，後端雲服務，在線辦公「四小龍」之戰開啟。本來，在線辦公更多的是阿里巴巴的主場。

2020年最強拍照旗艦來了華為P40系列多項業界首創香！

原來華為P40Pro+在上一代P30 Pro潛望式鏡頭橫置長焦鏡頭模組和感光器件基礎之上，進一步採用全新的多反射潛望式光路摺疊技術，實現5次反射光路，光程比上一代潛望式長焦提升178%。

今天聊一聊直播

今天聊一聊直播突然談到這個話題，是因為後知後覺的我，突然發現幾乎所有大互聯網公司都進軍了網絡直播行業，或者正在準備進軍直播領域。

通過直播賺錢不容易，既要豁得出去，又要端得起來

今天咱們繼續聊一聊直播吧當下，像頭條、網易、百度等公司，看上去和直播八竿子打不著的公司，也開始涉足直播了。

AI和自動化技術聯手，最終會讓60%的工人失去現有的飯碗。

並非危言聳聽，AI和自動化結合，勢必會把數十億人類踢出勞動力市場，數量巨大的失業工人，將會構成一個規模龐大的新階級。AI最終會讓60%的工人失去現有的飯碗。

這個網還能不能好好上了？今日全球IPv4地址正式耗盡

長期以來，一直令人擔心的IPv4地址耗盡的問題，今天這一刻終於發生——所有43億個IPv4地址已分配完畢，這意味著沒有更多的IPv4地址可以分配給ISP和其他大型網絡基礎設施提供商。

12306系統不行？內行人告訴你它有多牛，阿里騰訊高手去了也膜拜

很多人認為12306系統很不好，之前我也是這麼認為的，因為我覺得像雙十一這麼大流量，阿里都能承受住，為什麼12306不行，這其實是誤解，12306擁有著神一般的架構設計，平時的壓力比淘寶大的多。

有內幕？美國防部授與微軟百億雲合同，亞馬遜不滿發起訴訟

據路透社消息，10月25日，美國防部將高達100億美元的十年期戰略合同授予微軟公司，這一舉動引起亞馬遜的不滿。

未來之芯--RISC-V總部從美國遷往瑞士，華為、阿里是其成員

北京時間26日消息，國際開源芯片技術組織RISC-V基金會週一宣佈，由於擔心美國的貿易限制，計劃將總部從美國特拉華州遷往瑞士。該基金會首席執行官卡利絲塔-雷蒙德（Calista Redmond）表示，希望確保美國以外的大學、政府和企業能夠幫助開發其開源技術。

神話還能繼續嗎？幾度過山車，比特幣半年來首次跌破7000美元

比特幣價格今年如同坐上過山車，年初的3000美元到最高13861.9美元，今天跌破7000美元，算是這半年來的最低點了。說起比特幣，給人印象最深刻的，莫過於2017年末到2018年初的暴漲了吧。

劉強東卸任後，突然宣佈一個“好消息”，讓馬雲措手不及！

蘋果的瘋狂其實從未停止，AirPower或將重新啟航

可是，蘋果事實上一直都在推動終端產品進入全面無線時代，所以他們是不太可能在真正意義上放棄這款產品。有外媒稱，蘋果目前正準備重新啟動AirPower項目。

曾保護近4億中國人的電腦，卻因得罪阿里、騰訊，慘遭市場淘汰

曾保護近4億中國人的電腦，卻因得罪阿里、騰訊，慘遭市場淘汰隨著網絡的不斷髮展，如何確保網絡信息安全成為人們十分重視的問題。

互聯網流量需求增大希臘民眾“宅生活”考驗網速

英國諮詢公司Tech4i2報告指出，在疫情期間，希臘的互聯網流量需求至少增長50%，但網速僅下降1.2%，而在大多數歐洲國家，網速平均下降了5%-7%。

互聯網科技企業，傳統辦公模式該走向何處?

　　紐約，處於美國疫情震中的城市，工作模式大多是使用公司發放的電腦進行遠程辦公，而在這之前，部分互聯網企業本來默認每週三為在家辦公日，所以大家對在線辦公可以說駕輕就熟。

微信又悄悄上線一新功能～網友卻開始擔心

備註後的群聊名稱僅自己可見往後再也不用為分清亂糟糟的微信群聊而困擾不過從目前來看只有iOS端上線了這一新功能安卓用戶還需要再等等並且此次更新為後臺更新無需到AppStore更新即可看到這個新功能該功能上線後網友們紛紛站隊但也有網友視野開闊擔心起另一件事對於微信新功能群備註你覺得實

正式確認！孫正義退出市值5959億阿里，20年與馬雲成就彼此

文：小娜說到孫正義這個名字，我們很多人都知道他是日本軟銀集團的創始人兼總裁，但他除此之外也有另外的身份，那就是阿里巴巴最大的董事之一。阿里之所以成為今天的阿里，與孫正義的投資是分不開的。當時，馬雲和孫正義僅僅交談了五分鐘，孫正義當即就決定投資阿里，而且一下就投資2000萬美元。

科技添柴“非接觸經濟”升溫

新華社記者王全超攝中國同拉美和加勒比國家舉行視頻工作會議，就新冠肺炎疫情防控開展交流。亞歷山大·培尼亞攝在中國科學技術大學附屬第一醫院，乘客用“無接觸電梯按鈕”操作電梯。

好像在哪見過？華為nova7官宣餘承東:何必只有一點點

全新iPhoneSE根據此前爆料，此次華為nova7系列將有nova7 SE、nova7和nova7 Pro三個版本，可能會採用“麒麟985+麒麟990”或“麒麟820+麒麟985+麒麟990”兩種芯片組合。

行業紅利、資本湧入，疫情後的在線教育聚師網如何“涅槃”

2018年，線下培訓機構受到了相關部門政策的影響，整體發展勢頭趨降，然而市場上對於教育的需求卻在不斷增加，於是，大量學員開始把需求放到了線上，其中，職業教育在這方面的變化尤其明顯。

數字貨幣真的來了？首吃螃蟹者傳出，碰一碰功能露臉

蘇州相城區政府相關人士對此未予置評，區金融局人士表示“不便答覆”，其他多個當地機關單位稱尚不知情，央行蘇州市中心支行表示“以總行口徑為準”，央行總行方面未予確認。新京報記者程維妙陳鵬編輯嶽彩周校對薛京寧

實例 | 200 SMART運動控制基本指令詳解

C_Dir:表示電機的當前方向信號狀態，0 = 正向 1 = 反向。 START:觸發開始發脈衝信號，必須要在運動軸空閒時發送一次信號，必須用邊沿觸發。