楊瀾訪談李飛飛、吳恩達,通俗易懂了解深度學習在CV的應用(視頻)

1 緒論

1.1 背景

現今,隨著計算機計算能力的提高,在人工智能(Artificial Intelligent,AI)領域中,深度學習的人工神經網絡的算法慢慢嶄露頭角,開始在不同的領域識別取得不錯的準確率。

而且,在我們日常生活中廣泛應用。如幫助醫生進行武漢肺炎醫學診斷影像,移動人臉支付,停車場車牌識別和犯罪嫌疑犯的人臉識別等等。

楊瀾訪談李飛飛、吳恩達,通俗易懂了解深度學習在CV的應用(視頻)

吳恩達

上傳視頻封面

深度學習在視覺方面的應用

如今,各類技術公司將深度學習成熟運用於我們生活方方面面當中,科大訊飛公司的語言識別技術,曠視face++公司的人臉識別技術,Google公司深度學習框架的開源和業界內大量人工智能的應用等等。

現今,大量企業對於深度學習領域的人臉識別應用於智能家居安防,春運期間人臉識別檢驗旅客的信息,人臉識別購物反欺詐等等的應用,逐漸獲得社會的關注和大量的應用。

深度學習的有著悠久的歷史,隨著可用準確的訓練數據量的不斷增加,深度學習的方法變得高可靠。

而且,隨著科學技術的發展,針對深度學習的計算機硬件基礎設施,如:圖像處理單元(Graphics Processing Unit,GPU)、現場可編程門陣列(FPGA)、谷歌公司的張量處理器(Tensor Processing Unit,TPU)等改善,深度學習的模型的深度和規模也會隨之得到拓展。

總結,深度學習隨著時間的推移,已經可以解決日益複雜的應用,模型的精度也得到提高。

在1989年Yann Lecun教授使用神經網絡實現數字的識別[2];

1998年Yann Lecun發佈了Lenet的卷積神經網絡(CNNs)用於手寫數字識別的文章[3];

2009年,imageNet大型分類數據集發佈;


楊瀾訪談李飛飛、吳恩達,通俗易懂了解深度學習在CV的應用(視頻)

ImageNet


2012年,AlexNet提出GPU訓練的深度學習卷積神經網絡,並獲得了imageNet冠軍[4];

2014年,GoogLeNet使用Inception網絡結構,在ImageNet奪冠[5];

2015年,ResNet在ILSVRC冠軍[6];

到了2018年,MobileNetV2[7]的提出。

對此,卷積神經網絡對於圖像識別分類有著更高的精度。

1.2 國內外研究現狀

近些年來,隨著計算機視覺計算的不斷迭代更新,計算機的硬件如CPU,GPU和FPGA等計算能力的提升,圖像識別的模型訓練速度得到提升,由此,識別的準確率也有了很大的提升。

在國外,手機移動端使用攝像頭皮膚癌症檢測對於採集的圖像進行分類,根據模型預測對應的皮膚疾病,其識別的準確度才能保證協助醫生更好的診斷病情,提高疾病的查出率。

目前,在國內外的人臉識別的應用使用比較廣泛的方面,主要有圖像檢索,街道攝像頭嫌疑犯的人臉查找、出入境人臉身份的驗證和人臉支付等。


楊瀾訪談李飛飛、吳恩達,通俗易懂了解深度學習在CV的應用(視頻)

Google 貓臉識別


隨著GPU高效的運用在神經網絡的訓練的過程當中,並行化處理每個神經元的參數,對於高緯度的張量計算,減少了訓練模型的時間,加快了每次調參數的時間,最終提高了模型訓練的準確度。

雖然,基礎理論結合高速率的計算機計算能力,不斷提升模型訓練的精度和速率,但是在實際應用當中,隨著應用場景的變化,人臉識別的精確度也有挑戰性的因素存在:

(1)模型訓練集的選取,使用多角度的人臉集、不同表情的人臉集,還是不同場景的人臉集等,都會對人臉識別的模型造成訓練的誤差;

(2)實際的人臉識別的過程中,識別環境的光線要求比較高,對於在不同的環境光線對人臉識別系統的識別率要求比較高。

2 深度學習的領域

在計算機從層次化的概念體系當中學習並理解世界,而層次化的概念讓計算機構建比較簡單的概念來學習,達到學習複雜的概念,對此建立在彼此之間的圖,可以不斷學習等到層次更多的圖,由此得到這種方法為深度學習(Deep Learning,DL)[1]。

人工智能屬於一級專業的領域,其涵括機器學習,而神經網絡因其迭代計算和網絡結構深度被包括在深度學習的領域。

實際的工業級應用中,google公司的DeepMind團隊研發的Alpa Go系統因其深度學習系統在圍棋領域戰勝人類專業的選手李世石而名聲大振。

深度學習的神經網絡結構,有DNN深度神經網絡,CNNs卷積神經網絡,RNN循環卷積網絡等,因其算法功能和實際應用的場景對應產生不同的神經網絡。


楊瀾訪談李飛飛、吳恩達,通俗易懂了解深度學習在CV的應用(視頻)

深度學習維恩圖


圖 2-1 深度學習的維恩圖

由圖2-1維恩圖可知,展現了深度學習不僅是一種表示學習,還是一種機器學習,可以用於大多數的人工智能的方法,其中維恩圖的每個部分都是AI技術的子集。

2.1 機器學習

機器學習是一個計算機程序在某類任務T和衡量P從經驗E中自我完善,如果它的表現在任務T通過P來衡量並通過經驗E提高,可以說計算機程序從E中學習。

機器學習又可以分為監督學習、無監督學習、半監督學習、增強學習等不同的領域。

對應監督學習是需要用給定有標籤的數據集進行訓練,訓練出來的模型,使用測試數據集進行測試,得到的誤差進行迭代測試,最終將模型調試成得到的預測數與實際的數據誤差更小的過程[7]。

目的就是根據實際應用場景選擇合適的學習方法,然後使用對應的訓練和測試數據集進行模型的構造。


楊瀾訪談李飛飛、吳恩達,通俗易懂了解深度學習在CV的應用(視頻)

監督學習過程


圖2-2監督學習過程

由圖2-2可知,監督學習過程是輸入有標籤的數據集,使用對應的監督學習的算法進行機器學習模型的訓練,再使用數據輸入進訓練好的模型,模型對數據集進行預測,獲得預測的數據整個流程。

因此,這個思路在系統的構建可以靈活的應用[8]。

2.2 深度學習

對於傳統學習算法在對象識別方面的泛化預測能力不足,深度學習算法由此得到一些發展。

深度學習因其神經網絡結構的隱藏處理層的數量增加,對於圖片的分類的精度的提高,而目前使用GPU並行化處理提高神經網絡的訓練速度,因此可以被應用於圖像分類。

深度學習因此應用於語言識別,預測疾病,模式識別等等的方面。

3 總結

最後通過思維導圖,總結一下什麼是深度學習。

深度學習屬於人工智能領域,是一種機器學習的方法。

通過運用不同的神經網絡,可以運用於我們日常生活當中,如:語音識別,人臉識別,模式識別等等。


楊瀾訪談李飛飛、吳恩達,通俗易懂了解深度學習在CV的應用(視頻)

深度學習思維導圖


參考文獻

[1] Ian Goodfellow, Y Bengio,Aaron Courville. Deep learning[M]. Book in preparation for MIT Press,2016.

[2] Y. LeCun. Generalization and Network Design Strategies[R].Technical Report CRG-TR-89-4,1989.

[3] Y LeCun,L Bottou, Y Bengio, Pateick H. Gradient-Based Learning Applied to Document Recognition[J].Proc of the [3] IEEE,1998:7-8.

[4] Alex Krizhevsky, I Sutskever, G E. Hinton. Imagenet classification with deep convolutional neural networks[J].In [4] NIPS,pp,2012:4-6.

[5] Christian Szegedy,Wei Liu,Yangqing Jia,Pierre Sermanet,Scott Reed,Dragomir Anguelov,Dumitru Erhan,Vincent Vanhoucke,Andrew Rabinovich. Going deeper with convolutions,2014.

[6]Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun. Deep Residual Learning for Image Recognition,2015.

[7]Mark Sandler, Andrew Howard, Menglong Zhu, Andrey Zhmoginov, Liang-Chieh Chen. MobileNetV2: Inverted Residuals and Linear Bottlenecks,2019.


更多精彩內容,請關注“貪心科技AI”公眾號。


分享到:


相關文章: