ICLR 2018論文|Learning to Teach:讓AI和機器學習算法教學相長

ICLR 2018论文|Learning to Teach:让AI和机器学习算法教学相长

近年來,“自動學習(AutoML)”已經成為了一個研究熱點。通過自動化的方式,機器試圖學習到最優的學習策略,從而避免機器學習從業者低效的手動調整方式。經典的自動學習方法包括用於超參數調節的貝葉斯優化(Bayesian Optimization),以及用於優化器和網絡結構調整的元學習技術(Meta learning/Learning-to-Learn)除了在學術界引起了廣泛研究興趣,自動學習在工業界也已經得到了實際應用,例如微軟Azure提供的自定義影像(Custom Vision)服務,能夠方便雲計算用戶自動訓練用於計算機視覺的機器學習模型。除此之外,還有谷歌雲提供的AutoML服務等。

Azure自定義影像服務鏈接:

https://azure.microsoft.com/zh-cn/services/cognitive-services/custom-vision-service/

不論是傳統的機器學習算法還是最近的自動學習算法,它們的重點都是如何讓AI更好地學習:兩種學習算法的訓練過程都是在固定的數據集上,通過最小化固定的損失函數(Loss Function),優化得到位於模型假設空間(Hypothesis Space)裡最優的模型。而兩者差別僅僅在於優化過程是否是自動進行的,這無疑限制了自動學習技術的潛力。

事實上,當我們回過頭來追溯人類社會的智能史,我們會發現“教學”這一行為,對於人類智能的培養和傳承起著不可磨滅的重要作用。《禮記·學記》曾雲:“是故學然後知不足,教然後知困。知不足然後能自反也,知困然後能自強也。故曰教學相長也。”通過和人類社會的學習機制對比,我們發現傳統的機器學習和近年來的自動學習都忽略了一個很重要的方面:它們只學而不教。無論是訓練數據、損失函數,還是模型的假設空間,都對應著人類教學過程裡的若干重要環節。因此我們試圖打破對於訓練數據、損失函數和模型假設空間的限制,把教學這一重要的概念集成到機器學習系統中,使得人工智能和機器學習算法得以教學相長。我們將這一框架命名為“學習教學”(Learning to Teach,簡寫為L2T)。其中涵蓋了若干個關鍵問題:

1.數據教學力圖為機器學習過程尋找到最優的訓練集。訓練數據對應人類教學過程中的教育材料,例如教科書。

2.損失函數教學力圖為機器學習過程尋找到最優的損失函數。這類比於人類教學過程中,優秀的教師會通過高質量的測試過程來評估學生的學習質量,並對其進行引導。

3.模型空間教學力圖為機器學習過程定義最優的模型假設空間。例如在訓練的初期,我們可能會傾向於使用簡單的線性模型來儘快學習到數據裡的規律,而在訓練的末期,我們可能更願意選擇複雜的深度模型來使得性能得到進一步增強。這類比於教師教授給學生的技能集合(Skills Set):小學生只會學習到簡單的數字運算,中學生則會學習到基本的代數知識,到了大學,微積分則成為了必備的技能。

為了解決這些問題,我們定義了兩個模型:學生模型和教師模型。前者即為通常意義下的機器學習模型,後者則負責為前者提供合適的數據、損失函數,或者模型假設空間。在圖1中,我們簡單展示了兩個模型的完全自動化訓練過程:在學生模型訓練的每一步t,教師模型得到學生模型的狀態向量(用於反映學生模型當前的狀態),根據自身參數輸出教學策略,諸如當前需要使用的訓練數據、損失函數,或者優化的模型空間,反饋給學生模型。學生模型基於此進行一步優化(例如梯度下降),更新其參數。之後學生模型會將一個獎勵信號(例如開發集上的準確率)反饋給教師模型。教師模型基於該信號對自己的教學策略進行優化更新。這樣的過程循環往復直至教師模型收斂。

ICLR 2018论文|Learning to Teach:让AI和机器学习算法教学相长

圖1 L2T的訓練過程

我們以數據教學的實驗為例,來展示L2T在實際中如何幫助更快更好地訓練機器學習模型。在我們的實驗中,學生模型是用於分類的深度神經網絡,使用隨機梯度下降來進行優化。教師模型是一個三層的前向網絡,其職責是負責為學生模型的每步更新提供合適的批次數據(Mini-batch Data)我們使用強化學習中的REINFORCE算法來進行教師模型的訓練更新。

ICLR 2018论文|Learning to Teach:让AI和机器学习算法教学相长ICLR 2018论文|Learning to Teach:让AI和机器学习算法教学相长

圖2 上:訓練教師網絡使其指導MNIST上的MLP訓練,並將其應用於CIFAR-10上的ResNet-32訓練;下:訓練教師網絡使其指導CIFAR-10上的ResNet-32訓練,並將其應用於CIFAR-10上的ResNet-110訓練。

在圖2展示的訓練實驗中,我們可以清楚地發現通過L2T訓練出來的教師模型能夠幫助學生模型更快地收斂。尤其需要注意的是,L2T具有良好的可遷移性:在小數據集、小模型上(例如用於MNIST的MLP)訓練得到的教師模型可以無縫遷移到大數據集、大模型(例如用於CIFAR-10分類的ResNet-32)上。

同時,為了進一步驗證L2T框架的效果,我們也在用於IMDB情感分類數據集的LSTM網絡上進行了實驗,在網絡訓練過程中引入L2T訓練出來的教師模型能夠顯著提高網絡模型的準確率(如下表所示)。

ICLR 2018论文|Learning to Teach:让AI和机器学习算法教学相长

表1 使用不同教學策略訓練LSTM得到的IMDB數據集分類準確率。

總結來說,我們展示了一個新的讓機器學會自動化教學的方法。初步的實驗驗證了該方法在提升數據利用率、提升模型性能方面有著良好的表現未來我們計劃將該方法應用於損失函數和模型假設空間的自動學習,以期對機器學習模型的性能有更大的提升,為機器學習技術使用者提供更方便、更高效的自動化工具。

Learning to Teach, Yang Fan, Fei Tian,Tao Qin, Xiang-Yang Li, Tie-Yan Liu, Proceedings of Sixth International Conference on Learning Representations (ICLR 2018)

論文鏈接:https://openreview.net/forum?id=HJewuJWCZ

ICLR 2018论文|Learning to Teach:让AI和机器学习算法教学相长

田飛分別於2011年、2016年在中國科學技術大學計算機係獲得學士及博士學位,目前擔任微軟亞洲研究院機器學習組研究員。他的研究興趣主要集中在序列學習、自動化學習,以及機器學習技術在自然語言處理領域的應用。

你也許還想

ICLR 2018论文|Learning to Teach:让AI和机器学习算法教学相长


分享到:


相關文章: