【NSR特別專題】張宇 楊強:多任務學習概述「全文翻譯,附PDF」

原文地址→https://mp.weixin.qq.com/s/A-CVKTz_moaFzTYywSt2gg
關注微信公眾號:人工智能前沿講習,

對話框回覆:“MTL”,獲取完整版PDF



編者按:《國家科學評論》於2018年1月發表“機器學習”特別專題,由周志華教授組織並撰寫文章。專題內容還包括對AAAI前主席Tom Dietterich的訪談,徐宗本院士、楊強教授、朱軍博士、李航博士、張坤博士和Bernhard Scholkopf等人的精彩文章。

本文是香港科技大學楊強教授和張宇助理教授對多任務學習的系統性梳理和介紹。

本文為全文翻譯。本專題的更多翻譯文章將陸續刊出。

翻譯:宋平,雷智文,劉市祺

校譯:葉奎


摘要

多任務學習(Multi-Task Learning,MTL)是機器學習中一個非常有前景的方向,旨在通過利用多個相關的學習任務之間的有效信息來提升它們的性能。在本文中,我們對MTL進行了綜述,首先給出MTL的定義。然後介紹幾種不同類型的MTL,包括多任務監督學習,多任務非監督學習,多任務半監督學習,多任務主動學習,多任務強化學習,多任務在線學習和多任務多視角學習。對於每種類型都會介紹其典型的MTL模型。還介紹了可加速多任務學習的並行和分佈式MTL模型。在許多領域(包括計算機視覺,生物信息學,健康信息學,語音,自然語言處理,網絡應用和普適計算)都通過使用MTL來提升性能,本文對一些有代表性的工作也進行了綜述。最後,本文對最近MTL相關的理論分析進行了介紹。

關鍵詞:多任務學習


引言

機器學習(利用歷史數據學習有效信息,再用這些有效信息來幫助分析未來數據)通常需要大量有標籤數據來訓練一個性能良好的學習器。深度學習是機器學習中一個典型的學習器,它是有許多隱含層和大量參數的神經網絡。這種模型通常需要大量的數據樣本才能學習到準確的參數。然而,在一些場合,比如醫療圖像分析,由於需要大量的人力標註數據,所以數據量無法滿足要求。在這種情況下,利用從相關學習任務中得到的有用信息,從而緩解數據稀疏性問題的MTL方法是一種不錯的選擇。

MTL是機器學習中一個非常有前景的方向,旨在通過利用包含在多個學習任務中的有效信息來為每一個任務學習到一個更準確的模型。MTL基於這樣的假設:在所有任務中,至少它們中的某個子集是有相關性的,聯合學習多個任務,在經驗上和理論上均可發現比單獨學習每個任務都有更好的表現。基於任務的性質,MTL可以被分為以下幾類:多任務監督學習、多任務非監督學習、多任務半監督學習、多任務主動學習、多任務強化學習、多任務在線學習。在多任務監督學習中,每個任務可以是分類任務也可以是迴歸任務,都是通過給定一個包含訓練數據樣本和對應標籤的訓練數據集來預測未知數據樣本的標籤。在多任務非監督學習中,單個任務一般是聚類問題,其旨在從只包含有訓練數據樣本的訓練數據集中發現有用的模式。在多任務半監督學習中,單個任務與多任務監督學習中的任務類似,區別在於訓練集中既有帶標籤數據也有無標籤的數據。在多任務主動學習中,每個任務利用無標籤數據輔助有標籤數據學習,與多任務半監督學習類似但使用的方法不同,多任務主動學習是從無標籤數據樣本中挑選樣本然後主動查詢他們的標籤。在多任務強化學習中,每個任務旨在選擇動作以最大化累積獎勵。在多任務在線學習中,每個任務處理序列數據。在多任務多視角學習中,每個任務處理多視角數據(多組特徵描述一個樣本)。

MTL可以被看成一種機器模仿人類學習活動的方法,因為當任務相關時人們通常把一個任務中獲得的知識遷移到另一個任務,反之亦然。以我們自己的經驗為例,打壁球和打網球是相輔相成的。與人類學習類似,從一個任務中獲得的經驗可以用到其他相關任務中,所以同時學習多個任務是有益的。

MTL與在機器學習中其他方法類似,比如遷移學習[2],多標籤學習[3]和多輸出迴歸,但有其不同的特點。比如,與MTL類似的遷移學習,也是側重於把從一個任務學到的知識遷移到另一個任務中,區別在於遷移學習希望使用一個或多個任務幫助目標任務,而MTL中的多個任務彼此互相幫助。當多任務監督學習中的不同任務共享訓練數據時,就變成了多標籤學習或多輸出迴歸。在這種情況下,MTL可以視為多標籤學習和多輸出迴歸的擴展。

在本文中,我們對MTL進行了綜述。首先,我們定義MTL;然後基於每個學習任務的性質,我們討論不同類型的MTL,包括多任務監督學習、多任務非監督學習、多任務半監督學習、多任務主動學習、多任務強化學習、多任務在線學習、多任務多視角學習。對於每種類型都會介紹其典型的MTL模型。當任務數量巨大或不同任務的數據分佈於不同設備時,並行和分佈式MTL變得必不可少,本文介紹了幾種該類型的模型。作為一個有前景的學習範式,MTL已經應用於許多領域,比如包括計算機視覺、生物信息學,健康信息學、語音、自然語言處理、網絡應用和普適計算,本文對有代表性的應用也進行了綜述。最後,本文綜述了MTL的理論,以加深我們對其的理解。

本文剩餘部分結構如下。“MTL”部分介紹了MTL的定義。“多任務監督學習”部分到“到任務多視角學習”部分綜述了不同類型的MTL,包括多任務監督學習、多任務非監督學習、多任務半監督學習、多任務主動學習、多任務強化學習、多任務在線學習、多任務多視角學習。“並行與分佈式MTL”部分介紹了並行與分佈式MTL模型。“MTL的應用”部分展示了MTL是如何幫助其他領域的。“理論分析”部分專注於MTL的理論分析。最後,“結論”部分對全文進行了總結。


多任務學習

首先,我們給出多任務學習的定義。

定義1.(多任務學習)給定m個學習任務Ti, i=1,…,m,其中所有學習任務或他們中的一個子集是有相關性但不完全相同,MTL旨在通過利用包含於m個學習任務中的知識來促進每個任務學習。

基於此定義,我們可知在MTL中有兩大基本要素。

第一個要素是任務相關性。任務相關性是對不同任務之間如何相關的理解,其將會嵌入到MTL模型的設計中,稍後會介紹到。

第二個要素是任務定義。在機器學習中,學習任務主要包括監督任務(分類和迴歸任務)、非監督任務(聚類)、半監督任務、主動學習任務、強化學習任務、在線學習任務、多視角學習任務。不同的學習任務產生不同的MTL類型,這也是下面幾部分關注的。在以下幾部分中,我們會介紹不同類型MTL中的經典模型。


多任務監督學習(Multi-Task Supervised Learning, MTSL)

多任務監督學習類型是指MTL中每個任務都是監督學習任務(建立數據樣本與標籤之間的函數映射模型)。在數學上表示為,假設有m個監督學習任務Ti, i=1…m,每個監督任務對應一個訓練數據集D(x,y),其中包含n個數據,每個數據樣本x有d維,y是x的標籤,所以對於第i個任務Ti,有n個數據樣本和標籤對。當y處於連續空間中或是等價的實數標量,對應任務就是迴歸任務,如果y是離散的,比如y=1或-1,則對應的學習任務是分類任務。MTSL旨在從訓練集中為m個任務學習到m個能充分近似y的方程f(x)。學習到m個方程後,MTSL使用m個方程分別為m個任務預測未知數據樣本的標籤。

如之前討論那樣,任務相關性的理解影響了MTSL模型的設計。現有的MTSL模型一般從三個方面反映任務的相關性:特徵、參數、樣本,對應產生三類MTSL模型:基於特徵的MTSL模型,基於參數的MTSL模型,基於樣本的MTSL模型。具體而言,基於特徵的MTSL模型假設不同任務共享相同或相似的特徵表達,可以是原始特徵的一個子集或者是原始特徵的變換。基於參數的MTSL模型旨在通過模型參數的正則化或先驗把任務相關性編碼進模型中。基於樣本的MTSL模型提出通過對樣本加權,利用所有任務的數據樣本對每個任務建立一個學習器。接下來我們綜述一下三類的代表模型。

基於特徵的MTSL(Feature-based MTSL)

在此類的所有方法中,MTL模型假設不同任務共享特徵表達(由原始特徵表達產生)。根據共享特徵表達的獲得方式不同,我們把MTL模型的構建方法分為三類,包括特徵變換方法、特徵選擇方法、深度學習方法。特徵變換方法通過對原始特徵進行線性或非線性變換學到共享特徵表達。特徵選擇方法假設共享的特徵表達是原始特徵的子集。深度學習方法利用深度神經網絡學習共享的特徵表達,對任務來說其編碼於隱含層。

特徵變換方法(Feature transformation approach)

在此方法中,共享的特徵表達由原始特徵的線性或非線性變換得到。一個典型模型是多層前饋神經網絡,如圖1所示。此例中,多層前饋神經網絡包括一個輸入層,一個隱層,一個輸出層。輸入層有d個單元,分別從m個任務中接收數據樣本作為輸入,其中一個單元作為一個特徵。隱含層包括多個非線性激活單元,接收輸入層變換後的輸出,該變換取決於輸入層和隱層的連接權重。作為原始特徵的變換,隱層的輸出是所有任務共享的特徵表達。隱層的輸出首先經過隱層和輸出層之間的連接權重變換,然後送入輸出層,輸出層有m個單元,每個單元對應一個任務。

【NSR特別專題】張宇 楊強:多任務學習概述「全文翻譯,附PDF」

圖1:只有一個輸入層,隱層和輸出層的多任務前饋神經網絡

與基於神經網絡的多層前饋神經網絡不同,多任務特徵學習(MTFL)方法[5,6]和多任務稀疏編碼方法(MTSC)[7]建立在正則化框架之下,首先變換樣本數據x’=Ux,然後學習線性方程f(x)=Ax+b.基於此規則,我們可知這兩種方法旨在學習一個線性變換U而不是一個像多層前饋神經網絡似的非線性變換。不僅如此,MTFL和MTSC方法彼此也不同。比如,在MTFL方法中,U假定為正交矩陣,參數矩陣A=(a1,a2,,,am)經過L21正則化後是行稀疏的;然而MTSC方法中U是過完備的,即U中列數遠大於行數,且A經過L1正則化後是稀疏的。

特徵選擇方法(Feature selection approach)

特徵選擇方法旨在選擇一個原始特徵的子集作為不同任務間共享的特徵表達。有兩種方法進行多任務特徵選擇。第一種方法是基於對W=(w1,w2,…wm)的正則化,其中f(x)=Wx+b定義了任務Ti的線性學習方程。另一個方法是基於W的稀疏性概率先驗。接下來我們詳細介紹這兩種方法。

【NSR特別專題】張宇 楊強:多任務學習概述「全文翻譯,附PDF」

深度學習方法(Deep-learning approach)

與特徵變換方法裡的多層前饋神經網絡模型相似,深度學習方法的基本模型包括高級的神經網絡模型比如卷積神經網絡和遞歸神經網絡。然而,與多層前饋神經網絡只有少量的隱含層(比如2-3層)不同,深度學習方法包括有數十或數百層隱含層的神經網絡。不僅如此,與多層前饋神經網絡類似,本類中大多數深度學習模型[18-22]把隱含層的輸出看作共享的特徵表達。與他們的方法不同,[23]中提出的交叉縫網絡(cross-stitch network)把兩個任務隱藏的特徵表達構建為一個更強大的隱藏特徵表達。比如,為兩個任務給定兩個有相同網絡結構的深度神經網絡A和B,xijA和xijB表示A,B網絡包含在第i隱層第j單元的隱含特徵,對xijA和xijB的交叉縫操作可以定義為:

【NSR特別專題】張宇 楊強:多任務學習概述「全文翻譯,附PDF」

其中x‘ijA和x’ijB表示兩個任務經過聯合學習後新的隱藏特徵。矩陣S和兩個網絡的參數通過BP算法學習得到,因此該方法比直接共享隱層更靈活。

基於參數的MTSL

基於參數的MTSL使用模型參數關聯不同任務的學習。根據不同任務的模型參數的關聯方式我們將其分為5種方法,包括低秩方法,任務聚類方法,任務聯繫學習算法,髒方法(dirty approach)和多級方法。其中低秩方法處理因為假定任務彼此相關而使參數矩陣W很可能低秩的情況。任務聚類方法旨在把任務分為幾個集群,每一集群中的任務使用相同或相似的模型參數。任務聯繫學習算法直接從數據中學習成對數據的關係。髒方法假定W矩陣分解為兩個分量矩陣,每一個都經過稀疏方法正則化。作為髒方法的泛化,多級方法分解參數矩陣為兩個以上的分量矩陣來建模所有任務之間的複雜關係。下面我們分別介紹這幾種方法。

低秩法(Low-rank approach)

【NSR特別專題】張宇 楊強:多任務學習概述「全文翻譯,附PDF」

任務聚類方法(Task-clustering approach)

任務聚類方法應用數據聚類算法的思想,將任務分成幾個集群,每一個集群中的任務都有相似的模型參數。

第一個任務聚類算法是在[ 28 ]提出的,該算法剝離了任務聚類方法和模型的學習過程。具體來說,其首先根據模型參數將任務進行聚類,其中每個任務的模型參數是在單任務模式下獨自學習到的,然後將該集群中任務的訓練數據集中起來,為該任務集群中所有任務學習一個更精確的學習器。這種兩步法可能不是最優的,原因在於從單任務環境下學習到的模型參數可能不準確,使得任務聚類步驟的結果不好。所以,後續研究的目標是同時確定任務集群和學習模型參數。

[ 29 ]中提出了基於混合高斯模型的模型參數的聚類任務(即連接隱藏層和輸出層的權重)其結構類似於多層神經網絡的多任務貝葉斯神經網絡,如圖1所示,[30]中使用狄利克雷過程(Dirichlet process)(廣泛應用於貝葉斯學習中,用於數據聚類)用來做基於模型參數{wi}的任務聚類。

【NSR特別專題】張宇 楊強:多任務學習概述「全文翻譯,附PDF」

任務關係學習方法(Task-relation learning approach)

在這種方法中,任務關係反映任務的相關性,任務關係包括任務相似性和協方差等等,這裡僅舉幾例。

在早期的研究中,任務關係是通過模型假設[36,37]或者先驗信息[38-41]定義的。但是這兩種途徑都既不理想,也不實際,因為模型假設很難在現實世界的應用中證實,並且先驗信息很難獲得。更先進的學習任務關係的方法是從數據中提取,這是本節的重點內容。

[ 42 ]提出一個多任務的高斯過程,用其定義一個先驗函數fij,函數值與xij相關,寫作f∼N(0,Σ),其中f =(f 11,….,f m nm)。矩陣Σ的元素對應於fij和f pq之間的協方差,定義為σ(fij,fpq)=ωipk(xij,xpq),其中k(·,·)定義為核函數,ωip為任務Ti和Tp之間的協方差。然後,給定f,基於標籤的高斯似然函數,邊緣似然函數有了具體的解析形式,可以用來學習Ω,任務協方差可以反映任務的相關性,其中(i,p)為ωip的元素。為了在使用貝葉斯平均時達到更好的性能,[43]中用多任務泛化的t過程代替了在Ω上的逆Wishart先驗。

[44,45]提出了一種稱為多任務相關學習方法(MTRL)的正則化模型,用於替代W W∼MN(0,I,Ω)的矩陣變量廣義正態先驗,其中MN(M,A,B)表示M為均值,A為行方差,B為列方差下的矩陣正態分佈。該先驗與正則化器tr(WΩ-1WT)相關,正則化器中PSD任務方差Ω需要滿足條件tr(Ω)≤1。MTRL方法在[ 46 ]中被推廣到多任務提升(multi-task boosting)中,在[47]中被推廣到多標籤學習(multi-label learning)中,採用的方法是將每個標籤都看作是一個任務,在[ 48 ]中MRTL被擴展成能夠學習稀疏任務關係。[49]提出了一種類似於MRTL的方法,這種方法給W 加上W∼MN(0,Ω1,Ω2)的先驗,並且能夠學習Ω1和Ω2之間的稀疏逆。由於MRTL方法中用到的先驗,W^TW服從Wishart分佈,即W(0,Ω),所以在[ 50 ]中,通過研究高階先驗(WTW)t ∼ W(0,Ω)(t為正整數),MTRL方法的得到了進一步推廣。[ 51 ]通過將Ω假設為Ω-1=(Im-A)(Im-A)T的參數形式,提出了一種與MRTL中所用到的類似的正則化器,其中A為該文章中定義的不對稱任務關係。與上述依靠全局學習模型的方法不同,局部學習方法,如k近鄰(KNN)分類器在[ 52 ]中被用於MTL方法,學習函數定義為F(xij)=Σ(p,q)∈NK(I,J)σip S(xij,X pq)ypq,其中Nk(i,j)表示任務的集合和xi的k個最近鄰實例指標,s(·,·)定義了實例之間的相似度,σip代表任務Tp與Ti之間的相似度。通過使σip不斷靠近σpi,[52]提出一種正則化器||Σ-ΣT||2F來學習任務之間的相似度,其中,對於任意i≠p,σip需要滿足σii≥0且|σip|≤σii

髒方法(Dirty approach)

髒方法假設參數矩陣W分解為W = U + V,其中U和V分別捕獲任務相關性的不同部分。在這種方法中,不同模型的目標函數可以被聯合用於減少對所有任務及兩個正則器g(U)和h(V)的訓練損失,其中兩個正則化器是分別對應U和V。因此,該方法衍生出的方法的不同之處在於對g(U)和h(V)的選擇方式不同。

【NSR特別專題】張宇 楊強:多任務學習概述「全文翻譯,附PDF」

表一:髒方法g(U)和h(V)的不同選擇方法

這裡我們介紹五種不同選擇方法,如[53–57 ]所示。也就是表1中選擇g(U)和h(V)的五種不同方法。根據表1,我們可以看到,[ 53,56 ]中關於g(U)的處理是分別通過l∞,1範數和l2,1範數使U低稀疏化。[ 54,55 ]中關於g(U)的選擇是分別通過將跡範數作為正則化器和約束條件使U變成低秩的。與這些方法不同的是,[ 57 ]中通過Frobenius範數懲罰g(U)的複雜度,然後基於融合lasso正則器在不同任務中對特徵進行聚類。對於V,h(V)可以通過l1範數對其進行稀疏化,這一點在[53,54]討論過,也可以通過l2,1對其進行列稀疏化,這一點在[55,56]中討論過。[57]中通過平方Frobenius範數來懲罰V的複雜度。

在分解過程中,U主要識別任務之間的關聯性,類似與特徵選擇方法或低秩方法,而V能夠通過稀疏性捕獲噪聲或偏差數據。U和V的結合可以使學習器更加強大。

多層次方法(Multi-level approach)

作為髒方法的推廣,多層次方法分解參數矩陣W為h個分量矩陣{Wi}h i= 1,其中W=Σhi=1Wi,h大於等於2。下面,我們將展示多層次分解是如何幫助建模複雜的任務結構。

在任務聚類方法中,不同的任務集群通常沒有重疊,這可能會限制最終學習器的表達能力。在[ 58 ]中,列舉出了所有可能的任務集群,得到2^m-1個任務集群,它們組織成根結點為虛結點的樹結構,樹的父子關係是子集關係。這個樹有2^m個結點,每一個對應一層,因此索引t既表示樹中的一個結點,也表示對應層。為了處理有如此多節點的樹,作者做了一個假設:如果集群無用,那麼它所有的超級組(superset)都無用,這意味著如果樹中一個結點無用,那麼其所有子節點都無用。基於此假設,基於平方的Lp1範數的正則化項可設計為:

【NSR特別專題】張宇 楊強:多任務學習概述「全文翻譯,附PDF」

其中V表示樹的結點集,_v是結點v的正則化參數,D(v)表示v的子節點。S(W_t)使用[36]提出的正則化項迫使W_t中不同列趨向其均值。不像[58]中每層包含任務的子集,[34]中提出的一個多層任務集群方法是基於結構性稀疏正則化項來

【NSR特別專題】張宇 楊強:多任務學習概述「全文翻譯,附PDF」

聚類所有任務。

在[59]中,每一個分量矩陣被假定為是同時稀疏和行稀疏的,但是稀疏比例不同,這與連續分量矩陣更相似。為此,可以構建一個正則化項:

【NSR特別專題】張宇 楊強:多任務學習概述「全文翻譯,附PDF」

不像前面提到的方法那樣不同的分量矩陣沒有直接聯繫,在[60]中,在連續層中分量矩陣之間有直接的聯繫,任務之間複雜的級聯/樹結構可以從數據中學到。具體而言,在[34]的多層任務集群方法基礎上,[60]提出了一個等式約束:

【NSR特別專題】張宇 楊強:多任務學習概述「全文翻譯,附PDF」

使其變為樹形結構。

與髒方法的專注於識別噪聲和異常值相比,多層方法能夠建模更復雜的的任務結構,比如複雜任務集群和樹形結構。

基於實例的MTSL(Instance-based MTSL)

在本類中只有少數工作像[61]中提出的多任務分佈匹配方法有代表性。具體而言,它首先估計每個樣本是來自自己任務的概率和來自所有任務的混合集的概率之間的比例。在使用softmax方程確定比例後,這個方法使用該比例來決定樣本權重,然後從所有任務的加權樣本中為每個任務學習模型參數。

小結

基於特徵的MTSL可以為不同任務學習一個共同的特徵表達,更適合於原始特徵表達的信息和區分性不足的場合,如計算機視覺、自然語言處理和語音方向。然而,基於特徵的MTSL很容易的受與其他任務無關的異常任務影響,這是因為其難以從與其他任務無關的異常任務中學到共同的特徵表達。給定一個好的特徵表達,基於參數的MTSL可以學習到更準確的模型參數,而且通過模型參數的魯棒表達可以對異常任務更魯棒。因此基於特徵的MTSL與基於參數的MTSL互補。基於實例的MTSL也是現在與其他兩類方法同時正在研究探索的。

總之,MTSL類型方法是MTL研究中最重要的一類,因為它為其他類型方法的研究搭建了舞臺。在MTL現有的研究中,大約90%的工作研究MTSL類型,在MTSL類型中,多大部分人關注於基於特徵和基於參數的MTSL方法。


多任務非監督學習

不像多任務監督學習中每個樣本數據都有標籤,在多任務非監督學習中,第i個任務的訓練集Di只包括Ni個沒有標籤的數據樣本,多任務非監督學習就是從Di中挖掘信息。典型的非監督學習任務包括聚類,降維,流形學習,可視化等,多任務非監督學習主要關注多任務聚類。聚類就是把一組數據分為幾組,每組有相似的樣本,因此多任務聚類旨在利用不同數據集中的有用信息在多個數據集上聚類。

多任務聚類方向的研究不多,在[62]中,提出了兩個多任務聚類方法。這兩個方法將MTSL類型中的MTFL和MTRL方法[5,44]擴展到了聚類場景,在提出的兩個多任務聚類方法中的方程式幾乎與MTFL和MTRL中的一模一樣,唯一的區別在於標籤被當做需要從數據中學習的未知集群指標。


多任務半監督學習

在許多應用中,數據通常需要大量的人力來標記,從而導致標記的數據數量不夠多。但是在許多情況下,未標記數據很充足。因此在這種情況下,未標記數據也被用來提高監督學習的性能,這就產生了半監督學習。半監督學習的訓練集混合了標記數據和未標記數據。在多任務的半監督學習裡面的目標和半監督學習是相同的,也是利用未標記的數據來幫助提高監督學習的性能。然而不同的是,不同的監督任務共享有用的信息以互相幫助。

根據每個任務的性質,多任務半監督學習可以被分為兩類:多任務半監督分類和多任務半監督迴歸。對於多任務半監督分類,在(63,34)中,基於鬆弛狄利克雷過程提出了一種遵循任務聚類的方法來完成多任務聚類,而在每個任務中,使用隨機遊走(random walk)來挖掘包含在未標記數據裡面的有用信息。與(63,64)不同,(65)提出半監督多任務迴歸問題,在(65)中每個任務都符合高斯過程,未標記數據被定義為核函數,並且所有任務中的高斯過程共享核參數先驗。


多任務主動學習

多任務主動學習的類型與多任務半監督學習幾乎是相同的,每個任務都有少量的標記樣本和大量的未標記樣本,然而,不同於多任務半監督學習利用未標記數據中包含的信息,在多任務主動學習中,每個任務選擇富含信息的未標記數據向“神諭”查詢來主動獲得標籤,因此未標記數據選擇的標準是多任務主動學習的重點(66-68)。

具體來說,[66]中提出了兩個標準以確保選擇的未標記數據對所有任務而不僅僅是其中一個都富含信息,。與[66]不同,在[67]中每個任務的學習器都是一個有監督的隱狄利克雷分配模型(spervised latent Dirichlet allpcation model),未標記數據選擇的標準是減少預期錯誤。 此外,文獻[68]提出了一種選擇策略,即基於跡範數正則化器的低秩MTL模型的學習風險與類似於多臂賭博機(multi-armed bandits)的置信界限之間的權衡。


多任務強化學習

受到行為心理學的啟發,強化學習研究如何在環境中採取行動以獲得最多的累積獎勵,並且在許多實際應用中顯示了良好的性能,例如在作為代表性的Alpha Go應用中,Alpha Go在圍棋遊戲中擊敗了人類。 當環境相似時,不同的強化學習任務可以使用類似的策略來作出決定,這就是多任務強化學習的動機[69-73]。

具體來說,在[69]中,每個強化學習任務都是通過馬爾科夫決策過程(MDP)建模的,並且所有任務中,不同馬爾科夫決策過程通過分層貝葉斯無限混合模型(hierarchical Baysain infinate mixture)彼此相關。 在[70]中,每個任務都是通過區域化策略來表徵的,同時,狄利克雷過程被用在聚類任務中。 在[71]中,每個任務的強化學習模型是高斯過程時間差值價值函數模型(Gaussian process temporal difference value function),層次貝葉斯模型將不同任務的價值函數關聯起來。 [72]中假設不同任務中的值函數共享稀疏參數,並將帶有L2,1正則化[8]的多任務特徵選擇方法和MTFL方法[5]應用於同時學習所有的價值函數。 [73]提出了一種演員 - 模擬方法(actor-mimic method),它是深度強化學習和模型壓縮技術的結合,它的提出是用於學習多任務的策略網絡。


多任務在線學習

當多個任務中的訓練數據按順序進入模型時,傳統的MTL模型不能解決這個問題,但是多任務在線學習能夠完成這項工作,一些代表性工作[74-79]所示。

具體而言,在[74,75]中,假定不同任務具有共同目標,全局損失函數,聯合各個任務的損失函數,任務之間的關係度量,以及使用正範數的全局損失函數,一些MTL在線算法被提出。 在[76]中,所提出的MTL在線算法通過對所有任務採取的動作施加約束來建模任務關係。 在[77]中,針對多任務分類問題,提出了MTL在線算法,該算法採用感知器作為基本模型,並基於任務之間的共享幾何結構來衡量任務關係。 在 [78]中,提出了一種用於多任務高斯過程的貝葉斯在線算法,該過程在任務中共享核參數。 [79]中為了使用MTRL方法[44],提出了一個在線算法,它同時更新模型參數和協方差。


多任務多視角學習

在計算機視覺問題等一些應用中,每個數據點可以用不同的特徵表達表示來描述。以圖像數據為例,它的特徵提取方法包括SIFT和小波等。在這種情況下,每個特徵表達被稱為視角,因此提出多視角學習來處理這種具有多個視角的數據,它是機器學習中的一種學習範式。與監督學習類似,每個多視數據點通常與標籤對應。多視角學習旨在利用包含在多個視角中的有用信息來進一步提高監督學習(可以被視為一個單視圖學習範式)的性能。作為多視角學習的多任務擴展,多任務多視角學習[80,81]希望通過利用包含在相關任務的有用信息解決多視角學習問題,進而改善每個多視角學習問題的性能。具體而言,在[80]中,提出了第一個多任務多視角分類器,它利用了任務之間共享的公共視角的任務相關性和每個任務視角的視角一致性。在[81]中,每個任務中的不同視角對未標註的數據達成共識,因此可以學習不同的任務,其方法是利用如[38]中的先驗信息或者像MTRL方法那樣學習任務相關性。


並行和分佈式MTL

當任務數量很大時,如果我們直接應用多任務學習器,計算複雜度可能很高。如今,由於出現了多CPU或多GPU架構,所以計算機的計算能力非常強大。所以我們可以利用這些強大的計算工具來設計並行MTL算法來加速訓練過程。在[82]中,設計了一種並行MTL方法來解決MTRL模型的子問題[44],這也發生在許多屬於任務相關性學習方法中的正則化方法中。具體而言,針對所有任務,該方法利用FISTA算法設計可分解的替代函數,該替代函數可以並行化以加速學習過程。此外,在[82]中研究了三種損失函數,包括轉折點損失(hinge),不靈敏損失和平方損失,這些損失使得這個並行方法適用於MTSL中的分類和迴歸問題。

在某些情況下,針對不同任務的訓練數據可能存儲於不同的機器中,這使得傳統的MTL模型難以工作,即使所有的訓練數據都可以移動到一臺機器上,也會產生額外的傳輸和存儲成本。更好的選擇是設計分佈式MTL模型,這樣可以直接操作分佈在多臺機器上的數據。[83]提出了一個基於無偏拉索模型(debiased lasso model)的分佈式算法,通過一臺機器學習一項任務的方式,該算法具有高效的通信能力。


MTL的應用

包括計算機視覺,生物信息學,健康信息學,語音,自然語言處理,網絡應用以及普適計算等多個領域使用MTL來提高各自應用的性能。 在本節中,我們將回顧一些相關的工作。

計算機視覺

MTL在計算機視覺中的應用可以分為兩類,包括基於圖像的和基於視頻的應用。

基於圖像的MTL應用包括兩子類:人臉圖像和非人臉圖像。具體來說,基於人臉圖像的MTL應用包括人臉驗證[84],個性化年齡估計[85],多線索人臉識別[86] ,頭部姿勢估計[22,87],人臉輪廓檢測[18]以及人臉圖像旋轉[88]。基於非人臉圖像的MTL的應用包括目標分類[86],圖像分割[89,90],識別腦成像預測器 [91],顯著性檢測[92],行為識別[93],場景分類[94], 多屬性預測[95],多攝像頭行人重識別[96],以及即時預測[97]。

基於視頻的MTL應用包括視頻追蹤[98-100]和縮略圖選擇[19]。

生物信息學和健康信息學

MTL在生物信息學和健康信息學中的應用包括生物體建模[101],對治療靶點反應的機制鑑定[102],跨平臺siRNA功效預測[103],通過多種群的關聯分析檢測致病性遺傳標記[104] ,個性化腦機接口構建[105],MHC-I結合預測[106],剪接位點預測[106],蛋白亞細胞定位預測[107],阿爾茨海默病評估量表認知亞量表[108],認知預測 阿爾茨海默病神經影像學測量結果[109],阿爾茨海默病進展預後的縱向表型標記[110],疾病基因優先[111],基於自然圖像的生物學圖像分析[20],生存分析[ 112]和多重遺傳預測[113]。

語音和自然語言處理

MTL在語音中的應用包括語音合成[114,115]和那些用於自然語言處理的應用包括6個NLP任務的聯合學習(即部分語音標記,分塊,命名實體識別,語義角色標註,語言建模和語義相關詞),多模態情感分類[117],多模態對話狀態跟蹤[21],機器翻譯[118],句法分析[118]和微博分析[119,120]。

網絡應用

基於MTL的Web應用程序包括網絡搜索[121],網絡搜索 排序[122],多模態協同濾波[123],行為定位[124],以及廣告顯示[125]中的轉換最大化。

普適計算

MTL在普適計算中的應用包括股票預測[126],多設備定位[127],機器人逆動力學問題[128,129],旅途道路成本估計[130],道路旅行時間預測[131] ]和交通標誌識別[132]。

理論分析

學習論是機器學習的一個領域,其研究包括MTL模型在內的學習模型的理論方面。 接下來,我們將介紹一些有代表性的工作。

MTL的理論分析主要聚焦在推導MTL模型的泛化邊界上。 眾所周知,MTL模型在未知的測試數據的泛化性能是MTL和機器學習中主要關心的問題。然而,由於底層數據分佈難以建模,泛化性能無法計算,取而代之,泛化邊界用於估計泛化性能的上界。

[133]首次推導了一般性MTL的泛化上界。 然後,有許多研究分析了不同MTL方法的泛化上界,包括例如 [7,134]的特徵變換方法,[135]的特徵選擇方法,[24,135-138]的低秩方法,[136]的任務關係學習方法,[138]的骯髒算法。

結論

在本文中,我們對MTL(MTL)進行了概述。 首先,我們給出了一個MTL的定義。 此後,本文介紹了不同類型的MTL,包括多任務監督學習,多任務非監督學習,多任務半監督學習,多任務主動學習,多任務強化學習,多任務在線學習 和多任務多視角學習。 對於每種MTL方法,我們介紹了其有代表性的模型。 然後討論了並行和分佈式MTL模型,這兩個模型可以幫助加快MTL學習過程。 最後,我們回顧了MTL在各個領域的應用,並介紹了MTL的理論分析。

近些年,深度學習在許多應用中已經廣泛應用,並且有一些專門為MTL設計的深度模型。 幾乎所有的深度模型都會在不同任務中共享隱含層;在相似任務中,這種任務間共享知識的方式非常有用,但是當不符合這個假設時候,性能將急劇下降。 我們認為多任務深度模型的未來發展方向是設計更多靈活的架構,它可以兼容不同的任務之間的差異甚至異常任務。 進一步來說,深度學習,任務聚類和多層次的方法缺乏理論基礎,需要更多的分析來指導這些方法的研究。

贊助

本工作由中國國家基礎研究計劃(973項目)(2014CB340304),香港CERG項目(16211214,16209715和16244616),中國國家自然科學基金(61473087和61673202),江蘇省自然科學基金(BK20141340)支持。

  • 文中數字註明的應用文章,詳見英文版PDF。
  • 《國家科學評論》(National Science Review, NSR)是我國第一份英文版自然科學綜述性學術期刊,定位於全方位、多角度反映中外科學研究的重要成就,深度解讀重大科技事件、重要科技政策,旨在展示世界(尤其是我國)前沿研究和熱點研究的最新進展和代表性成果,引領學科發展,促進學術交流。NSR的報道範圍涵蓋數理科學、化學科學、生命科學、地球科學、材料科學、信息科學等六大領域。基於科睿唯安發佈的2016年度的期刊引證報告(Journal Citation Reports,JCR),NSR的最新影響因子達到8.843,穩居全球多學科綜合類期刊的第五名(8%,Q1)。NSR發表的所有論文全文可以在線免費閱讀和下載。
  • 本文經《National Science Review》(NSR,《國家科學評論》英文版)授權翻譯,“機器學習”專題的更多翻譯文章將陸續刊出。
【NSR特別專題】張宇 楊強:多任務學習概述「全文翻譯,附PDF」


分享到:


相關文章: