主動學習介紹:儘可能減少數據的標註成本的一種半監督學習方法

Deephub翻譯組:李愛(Li Ai)

1.什麼是主動學習?

這篇文章的主要目的是為了揭開主動學習的神秘面紗,以及將展示它與傳統監督學習的不同之處。

首先,什麼是主動學習?從本質上講,主動學習是機器學習框架中的一種,它的算法能夠通過與用戶(專家或權威)交互的方式來對樣本重新貼上真實的標籤,其學習過程也被稱為最優的實驗設計。

研究主動學習的目的是為了去應對大量未標記的數據。考慮去訓練一個能對貓和狗進行圖像分類的模型,其中貓和狗都分別有數百萬張圖片,但這個分類模型並不需要用所有的圖片去進行訓練,畢竟有些圖片比較模糊不是特別適合用作訓練。另一個類似的應用場景是對Youtube視頻的內容進行分類,因為它所需要訓練的數據量也非常很大。

而與此相反的被動學習則是需要拿大量標記好的數據給算法進行訓練,因此被動學習需要在標記整個數據集方面花費很大的精力。

主動學習介紹:儘可能減少數據的標註成本的一種半監督學習方法

對於主動學習,我們可以選擇採用一個類似眾包的數據集,讓專家有選擇地給數據集中的一些數據貼上標籤,但不必給整個數據集中的數據都貼上標籤。主動學習算法根據某個度量值進行不斷迭代選擇數據,並將這些未標記的數據發送給權威,然後權威將其標記後並返回給算法。

主動學習介紹:儘可能減少數據的標註成本的一種半監督學習方法

在某些情況下,主動學習比隨機抽樣表現得更好。下圖展示了一個線性分類的例子,說明了主動學習比隨機抽樣更有效。需要說明的是,下面的整個數據集(紅色三角形和綠色圓形)是線性不可分的。

主動學習介紹:儘可能減少數據的標註成本的一種半監督學習方法

主動學習它能夠認識到並不是所有的數據都是同等有價值的。由於用來訓練的數據集是均勻抽樣上來的,導致了這樣的學習模型並不能代表每一種類別之間的劃分。而主動學習則選擇那些靠近邊界的數據進行訓練,使得它能夠更加快速地訓練出分類模型。之前的研究也表明,在多種圖像的分類任務中,主動學習比傳統的隨機抽樣更有效[1,2,3,4]。

為確定數據集中哪些數據更有價值,信息量更大,主動學習將數據的選擇進行了簡化。在主動學習中,信息量最大的數據通常是數據集中最不確定的數據,這也就需要研究出能夠用來度量或量化不確定性的方法。

2.不同類型的主動學習框架

主動學習被認為是一種半監督學習,即介於無監督學習和監督學習之間。主動學習可以通過迭代的方式來增加被標記的訓練集,這樣也使得它更接近監督學習,但花費的成本或時間卻只是使用全部數據進行訓練的一小部分。

2.1 基於池的主動學習框架

在基於池的主動學習框架中,訓練數據來自於未被標記的數據池中,之後由權威對從這個數據池中選擇出來的數據進行標記。

2.2 基於流的主動學習框架

在基於流的主動學習框架中,所有的訓練數據以數據流的形式發送給算法。每個數據都單獨發送給算法進行訓練,並且算法需要立即決定是否給這個數據貼上標籤。即從數據池中選擇訓練數據給權威標記,在對下一個數據進行訓練之前,當前訓練數據的標籤應該馬上發送給算法。

3.不確定性

對於該如何去選擇信息最為豐富的數據,可以考慮採用"不確定性"來進行度量。在基於池的樣本中,主動學習算法選擇最有價值的數據添加到訓練集中。信息量最大的數據也即是對分類器而言最不確定的數據。選擇最不確定的數據作為訓練數據是原因:確定性越小的數據可能是越難進行分類的數據——特別是在邊界附近的一些數據,而主動學習算法能通過觀察這些數據來了解到更多的邊界信息。

下面是四種在主動學習中常用的不確定性測量方法,常用來選擇信息最為豐富的數據。

3.1 最小裕度不確定性

主動學習介紹:儘可能減少數據的標註成本的一種半監督學習方法

最小裕度不確定性(The smallest margin uncertainty,SMU)反映了最佳與次最佳的概率,即採用最可能類別的概率減去第二可能類別的概率。這個數值背後的意義在於:如果最可能類別的概率顯著大於第二可能類別的概率的話,那麼分類器就非常確定這個數據所屬哪一類。同樣地,如果最可能類別的概率並不比第二可能類別的概率大多少的話,那麼分類器對這個數據所屬哪一類就不那麼確定了。因此,主動學習算法將選擇SMU值最小的數據作為訓練數據。

3.2 最小置信不確定性

主動學習介紹:儘可能減少數據的標註成本的一種半監督學習方法

最小置信不確定性(Least confidence uncertainty, LCU)是選擇分類器最不確定的數據作為訓練數據。LCU的選擇只看重那些確定性最小的類別,並選擇它們作為訓練數據。

3.3 熵減

主動學習介紹:儘可能減少數據的標註成本的一種半監督學習方法

熵能夠對隨機變量的不確定性進行度量。在這個實驗中,我們使用了香農熵。香農熵具有幾個基本的性質:(1)均勻分佈且具有最大的不確定性;(2)不確定性是獨立事件的疊加;(3)增加一個概率為零的數據對其沒有影響;(4)具有確定結果的事件對其沒有影響[6,7]。將分類預測作為輸出,我們可以測量這個輸出的香農熵。

熵值越大暗示著不確定性的概率就越大[1]。在每個主動學習的步驟中,對於訓練集中未標記的訓練數據,主動學習算法都將會計算其熵超過所預測類別的概率,並選擇熵最大的作為訓練數據,因為熵最大的數據就是分類器對其類別最不確定的數據。

3.4 最大裕度不確定性

主動學習介紹:儘可能減少數據的標註成本的一種半監督學習方法

最大裕度不確定性(The largest margin uncertainty,LMU)反映了最佳與最差的概率,即採用最可能類別的概率減去最不可能類別的概率。這個數值背後的意義在於:如果最可能類別的概率顯著大於最不可能類別的概率,那麼分類器就十分確定這個數據所屬哪一類。同樣地,如果最可能類別的概率並不比最不可能類別的概率大多少,那麼分類器對這個數據所屬哪一類就不那麼確定了。因此,主動學習算法將選擇LMU值最小的數據作為訓練數據。

4.算法

下面是基於池的主動學習算法。基於流的主動學習算法也可以類似地被寫出來。

主動學習介紹:儘可能減少數據的標註成本的一種半監督學習方法

由於訓練一個分類器需要大量的標籤數據,這成為了之前大規模分類任務得到發展的一個主要瓶頸。但是現在主動學習的研究,使得我們可以策略性地選擇特定的訓練數據來減少一個分類器所需要訓練的數量。

你或許會在文獻中看到主動學習被稱為最佳實驗設計。因此,我將發佈一個關於主動學習的教程,主動學習也是人工智能領域中一個非常令人興奮和有前途的分支!

Deephub翻譯組:李愛(Li Ai)


分享到:


相關文章: