AI的最大成就之一 瞭解卷積神經網絡的侷限性

文 | AI國際站 唐恩

編 | 艾娃

本文由AI國際站 原創出品,未經許可,任何渠道、平臺請勿轉載,違者必究。

經過漫長的冬季之後,人工智能的發展經歷了炎熱的夏天,這主要歸功於深度學習和人工神經網絡的發展。更準確地說,對深度學習的新興趣很大程度上歸功於卷積神經網絡(CNN)的成功,卷積神經網絡是一種特別擅長處理可視數據的神經網絡結構。

AI的最大成就之一 瞭解卷積神經網絡的侷限性

但是,如果我告訴您CNN根本存在缺陷怎麼辦?這就是深度學習的先驅之一Geoffrey Hinton在AAAI會議(主要的年度AI會議之一)上的主題演講中談到的內容。

Hinton與Yann LeCun和Yoshua Bengio一起參加了會議,他與他共同構成了都靈獎的“深度學習教父”三人組,他談到了CNN以及膠囊網絡的侷限性,這是他在AI上的下一個突破的總體規劃。

與他的所有演講一樣,Hinton討論了很多技術細節,以瞭解與人類視覺系統相比,使convnet效率低下或與眾不同的原因。以下是他提出的一些關鍵點。但是首先,作為我們的習慣,有一些關於我們如何到達這裡以及為什麼CNN對AI社區如此重要的背景。

解決計算機視覺

自從人工智能誕生之初,科學家就試圖製造能夠像人類一樣看到世界的計算機。這些努力導致了他們自己的研究領域,統稱為計算機視覺。

計算機視覺的早期工作涉及使用符號人工智能,該軟件中的每個規則都必須由人類程序員指定。問題在於,並非人類視覺設備的每個功能都可以在明確的計算機程序規則中分解。該方法最終獲得的成功和使用非常有限。

一種不同的方法是使用機器學習。與象徵性AI相反,機器學習算法具有一般結構,並通過檢查訓練示例來釋放它們自己的行為。但是,大多數早期的機器學習算法仍然需要大量的人工來設計檢測圖像中相關特徵的零件。

AI的最大成就之一 瞭解卷積神經網絡的侷限性

經典的機器學習方法涉及許多複雜的步驟,並且需要數十位領域專家,數學家和程序員的協作。

另一方面,卷積神經網絡是端到端的AI模型,它們發展了自己的特徵檢測機制。訓練有素的多層CNN會自動以分層的方式識別特徵,從簡單的邊角開始到複雜的對象(例如臉,椅子,汽車,狗等)。

CNN最早是在1980年代由LeCun提出的,當時是多倫多大學欣頓實驗室的博士後研究員。但是由於它們對計算和數據的巨大需求,它們被甩在了一邊,獲得了非常有限的採用。經過三十年的發展,CNN的計算硬件和數據存儲技術取得了長足的發展。

如今,由於大型計算集群,專用硬件和大量數據的可用性,卷積網在圖像分類和對象識別中發現了許多有用的應用程序。

AI的最大成就之一 瞭解卷積神經網絡的侷限性

神經網絡的每一層將從輸入圖像中提取特定特徵。

CNN和人類視覺之間的區別

“ CNN學會了端到端的一切。事實是,如果一項功能在某個地方很不錯,那麼在其他地方也很不錯,因此他們獲得了巨大的成功。辛頓在AAAI演講中說:“這使他們能夠結合證據並很好地概括各個職位。”“但是它們與人類的感知有很大不同。”

計算機視覺的主要挑戰之一是處理現實世界中的數據差異。我們的視覺系統可以從不同角度,在不同背景下以及在不同光照條件下識別物體。當物體被其他物體部分遮擋或以偏心的方式著色時,我們的視覺系統會使用線索和其他知識來填充缺失的信息以及我們所見事物的原因。

實踐證明,創建可以複製相同對象識別功能的AI非常困難。Hinton說:“ CNN在應付翻譯。” 這意味著訓練有素的卷積網絡可以識別對象,而不管其在圖像中的位置如何。但是他們不能很好地處理改變視點的其他影響,例如旋轉和縮放。根據Hinton的說法,解決此問題的一種方法是使用4D或6D映射來訓練AI,然後再執行對象檢測。他補充說:“但這真是令人望而卻步。”

目前,我們最好的解決方案是收集大量圖像,以不同位置顯示每個對象。然後,我們在這個龐大的數據集上訓練我們的CNN,希望它能看到足夠多的物體實例以進行概括,並能夠在現實世界中以可靠的準確性檢測物體。諸如ImageNet之類的數據集在實現這一目標,該數據集包含超過1400萬個帶註釋的圖像。

“這不是很有效,”欣頓說。“我們希望神經網絡能夠毫不費力地推廣到新觀點。如果他們學會了識別某些東西,並且將其放大10倍並旋轉60度,那麼這根本不會給他們帶來任何問題。我們知道計算機圖形就是那樣,我們希望使神經網絡更像那樣。”

實際上,ImageNet(目前是評估計算機視覺系統的首選基準)存在缺陷。儘管數據集龐大,但無法捕獲對象的所有可能角度和位置。它主要由在理想照明條件下以已知角度拍攝的圖像組成。

這對於人類視覺系統是可以接受的,它可以輕鬆地概括其知識。實際上,從多個角度看待某個對象後,我們通常可以想象它在新位置和不同視覺條件下的外觀。

但是,CNN需要詳細說明他們需要處理的案件,而且他們沒有人腦的創造力。深度學習開發人員通常嘗試通過應用稱為“數據增強”的過程來解決此問題,在該過程中,他們在訓練神經網絡之前翻轉圖像或旋轉少量圖像。實際上,CNN將在每個圖像的多個副本上訓練,每個副本略有不同。這將幫助AI更好地概括相同對象的變化。數據擴充在某種程度上使AI模型更加健壯。

但是,數據增強將無法覆蓋CNN和其他神經網絡無法處理的極端情況,例如上翹的椅子或躺在床上的皺褶T恤。這些是像素操縱無法實現的現實情況。

AI的最大成就之一 瞭解卷積神經網絡的侷限性

ImageNet與現實:在ImageNet(左列)中,對象放置整齊,處於理想的背景和光照條件下。在現實世界中,事情變

已經通過創建更好地表示現實世界的混亂視覺的計算機視覺基準和訓練數據集來解決該泛化問題。但是,儘管它們可以改善當前AI系統的結果,但是它們並不能解決跨觀點進行歸納的根本問題。這些新數據集將始終不包含新的角度,新的照明條件,新的顏色和姿勢。那些新情況將使最大,最先進的AI系統困惑不已。

差異可能很危險

從上面提出的觀點來看,CNN顯然以與人類截然不同的方式識別物體。但是,這些差異不僅限於泛化能力弱,而且還需要更多示例來學習對象。CNN產生的對象的內部表示形式也與人腦的生物神經網絡非常不同。

這如何體現呢?“我可以拍攝一張圖像,併產生一點點噪點,而CNN會將其識別為完全不同的東西,我幾乎看不到它已經改變了。這似乎真的很奇怪,我以此為依據證明CNN實際上是在使用與我們完全不同的信息來識別圖像,”欣頓在AAAI會議上的主題演講中說。

這些經過輕微修改的圖像被稱為“對抗性示例”,並且是AI社區研究的熱門領域。

AI的最大成就之一 瞭解卷積神經網絡的侷限性

對抗性示例可能會導致神經網絡對圖像進行錯誤分類,而對人眼卻保持不變

Hinton說:“並不是說錯了,他們只是以一種完全不同的方式來做,而且他們的完全不同的方式在推廣方式上有一些差異。”

但是許多例子表明,對抗性干擾可能是極其危險的。當您的圖像分類器錯誤地將熊貓標記為長臂猿時,一切都很可愛有趣。但是,當自動駕駛汽車的計算機視覺系統缺少停車標誌,邪惡的黑客繞過面部識別安全系統或Google Photos將人類標記為大猩猩時,您就會遇到問題。

關於檢測對抗性漏洞並創建可抵抗對抗性擾動的強大AI系統,已有許多研究。但是,對抗性的例子也提醒我們:我們的視覺系統經過幾代人的進化,可以處理我們周圍的世界,我們也創造了我們的世界來適應我們的視覺系統。因此,只要我們的計算機視覺系統以與人類視覺根本不同的方式工作,它們將是不可預測且不可靠的,除非它們得到激光雷達和雷達測繪等互補技術的支持。

座標系和整體關係很重要

傑弗裡·欣頓(Geoffrey Hinton)在AAAI主題演講中指出的另一個問題是,卷積神經網絡無法從物體及其部位理解圖像。他們將它們識別為以不同圖案排列的像素斑點。它們沒有實體及其關係的顯式內部表示。

“當您將CNN定位在各個像素位置的中心時,您會越來越多地描述該像素位置上發生的情況,這取決於越來越多的上下文。最後,您獲得瞭如此豐富的描述,以至於您知道圖像中存在哪些對象。但他們沒有明確解析圖像,”欣頓說。

我們對物體組成的瞭解有助於我們瞭解世界並瞭解我們之前從未見過的事物,例如這個奇異的茶壺。

AI的最大成就之一 瞭解卷積神經網絡的侷限性

將對象分解為多個部分有助於我們瞭解其性質。這是馬桶或茶壺嗎?(來源:粉碎列表)

CNN還缺少座標框架,這是人類視覺的基本組成部分。基本上,當我們看到一個物體時,我們會開發一個關於其方向的心理模型,這有助於我們解析其不同特徵。例如,在下面的圖片中,考慮右邊的臉。如果您將其上下顛倒,則臉會在左側。但實際上,您無需實際翻轉圖像即可看到左側的臉部。只需在精神上調整您的座標系,就可以看到兩張臉,無論圖片的方向如何。

AI的最大成就之一 瞭解卷積神經網絡的侷限性

根據所施加的座標系,您會有完全不同的內部感知。卷積神經網絡確實無法解釋這一點。您給他們一個輸入,他們有一個感知,並且感知不依賴於施加座標系。我想這與對抗性例子有關,也與卷積網以與人完全不同的方式進行感知這一事實有關。

學習計算機圖形學課程

Hinton在AAAI會議上的演講中指出,解決計算機視覺的一種非常方便的方法是製作逆圖形。3D計算機圖形模型由對象的層次結構組成。每個對象都有一個轉換矩陣,該矩陣定義了與其父對象相比的平移,旋轉和縮放比例。每個層次結構中頂級對象的變換矩陣定義了其相對於世界原點的座標和方向。

例如,考慮汽車的3D模型。基礎對象具有4×4變換矩陣,該矩陣表示汽車的中心位於具有旋轉(X = 0,Y = 0,Z = 90)的座標(X = 10,Y = 10,Z = 0)處。汽車本身由許多對象組成,例如車輪,底盤,方向盤,擋風玻璃,變速箱,發動機等。每個對象都有自己的變換矩陣,與母矩陣(中心點)相比,它們定義了位置和方向。汽車)。例如,左前輪的中心位於(X = -1.5,Y = 2,Z = -0.3)。左前輪的世界座標可以通過將其變換矩陣乘以其父矩陣得到。

其中一些對象可能具有自己的子集。例如,車輪由輪胎,輪輞,輪轂,螺母等組成。這些子項中的每個子項都有自己的變換矩陣。

使用這種座標系層次結構,可以非常輕鬆地定位和可視化對象,而不管它們的姿勢和方向或視點如何。當您要渲染對象時,將3D對象中的每個三角形乘以其變換矩陣及其父級的變換矩陣。然後將其與視點對齊(另一個矩陣乘法),然後在柵格化為像素之前轉換為屏幕座標。

“如果您(對從事計算機圖形學的人說),'您能從另一個角度告訴我嗎?'他們不會說,'哦,我想,但是我們沒有從那個角度訓練因此我們不能從那個角度向您展示它。”他們只是從另一個角度向您展示,因為它們具有3D模型,並且它們對空間結構進行建模,因為零件和整體之間的關係完全不依賴於視點。”欣頓說。“我認為在處理3D對象的圖像時不使用這種漂亮的結構是很瘋狂的。”

膠囊網絡是Hinton雄心勃勃的新項目,它試圖做逆計算機圖形學。儘管膠囊應該有自己的一套物品,但其背後的基本思想是拍攝圖像,提取其對象及其零件,定義其座標系並創建圖像的模塊化結構。

膠囊網絡仍在研發中,自2017年推出以來,它們經歷了多次迭代。但是,如果欣頓和他的同事們成功地使他們發揮作用,我們將更接近複製人類的視野。


分享到:


相關文章: