02.28 AI研習丨黃鐵軍:視達2020——翻開視覺新篇章

轉自 CAAI會員中心

圖像和視頻是視覺信息最常用、最基本的表達形式,看似抽象概念,實為工業時代殘留。

AI研習丨黃鐵軍:視達2020——翻開視覺新篇章

黃鐵軍

視達2020:翻開視覺新篇章


大道至簡,改寫圖像視頻

所謂靜止圖像,並非光在特定時刻的狀態,而是一個時段內光的累積。1827年法國人約瑟夫·尼埃普斯發明日光蝕刻法,用瀝青板拍攝了人類第一張照片,曝光時間是8小時。1839年法國人達蓋爾發明銀版攝影法,典型曝光時間是30分鐘,如果拍攝人像,就要一動不動地坐半個小時。1860年英法聯軍攻進北京城,採用溼版攝影法留下了北京城第一張照片,曝光時間數秒,偌大的北京城,只留下一名在牆根曬太陽的人像和一名小販模糊的身影。1888年美國柯達公司生產出新型感光材料“膠捲”,曝光時間降低到秒級以下,日常照相才成為可能。後來隨著技術進步,曝光時間縮小到分秒甚至毫秒,但是,曝光時間既不能太短也不能太長,太短不足以形成層次豐富的圖像,太長會帶來運動模糊,因此至今人們拍照時還要乖乖的安靜下來配合,才能拍攝到滿意的照片。


電影是照相術的自然延續。1895年法國人奧古斯特·盧米埃爾和路易斯·盧米埃爾兄弟發明電影,採用類似縫紉機的機構牽引35毫米膠片和遮光器間歇運動,每秒12幅膠片,後來增加到每秒24幅,使得畫面更新時間短於人的視覺暫留時間,觀眾因此獲得連續視覺感受。


電視拋棄了膠片,直接採用電信號表示圖像,但卻繼承了用圖像序列表示動態視覺過程的範式,只是按照通信和信號處理的術語習慣將圖像稱為幀,每秒圖像幀數稱為幀率。1925年英國人約翰·洛奇·貝爾德發明機械掃描式電視攝像機和接收機,幀率為5。1935年視頻(video)這個術語登上歷史舞臺,1937年正式確定沿用至今。


數碼相機的研究開始於20世紀60年代,80年代產品化,90年代普及,2005年幾乎完全替代膠捲相機,2010年銷量達到頂峰。同年手機相機銷量首次超越數碼相機,並在幾年內達到了後者的10倍以上。


但是,無論上個世紀電影到電視,還是新世紀數碼替代膠捲、手機碾壓相機,技術革命風捲殘雲,捲走了膠片,留下了圖像和視頻。就像辛亥革命剪掉了腦袋上的辮子,卻沒剪去心裡的辮子。我們認為,圖像和視頻也應該隨膠捲而去,用新的視覺模型替代它們,這個新模型叫做視達(vidar)。


先說圖像。圖像記錄的不是t時刻的狀態,而是持續Δt的物理變化過程的累積,變化過程本身已經丟失了。再說視頻,採集每幀圖像所用的累積時間Δt小於或等於兩幀圖像之間的自然時間間隔Δt',這意味著(Δt'-Δt)這段時間(典型情況下佔總時間的90%)內的信息徹底丟失了,因此視頻不是對物理過程的一個完整採樣。


視達在空域採樣方面與傳統圖像和視頻並無二致,但在時域採樣方面採用脈衝序列表達光的變化過程。光有波粒二象性,每個光子可以視為一個脈衝。如果把相機的每個感光器件視為一個光子捕捉器,當收集的光子能量達到約定閾值時,就產生一個脈衝,這個脈衝及形成這個脈衝所持續的時長稱為一個視元(vit)。每個感光器件產生的視元按照時間次序排成序列,所有感光器件產生的脈衝序列按照器件的空間排布組成脈衝流陣列,就是視達。若時間也離散化,則視達為一個比特序列陣列,比特1表示該時刻產生了一個脈衝,它和前一個1之間的0一起組成一個視元。


視達實際上是光子流的一種直觀採樣,有效保留光流的時序和準確的時間信息。每個視元都攜帶了一組光子的空間信息(感光單元的位置)和時間信息(累積所需要的時間及發放時刻)。每個視元的持續時間和光強成反比,據此可以算出任意指定時刻的光強,從而得到該時刻圖像。這種從視達中計算出任意時刻圖像的能力,稱為全時成像(fulltime imaging)。如果把計算的時間窗口擴大到多個視元,則可以計算出更高動態範圍的圖像,我們稱之為自由動態範圍(FreeDynamic Range,FDR)成像。


總結一下,視達是“動態圖像”,信息量比傳統靜止圖像更豐富,理應取而代之;進而,視達蘊含了任意時刻的圖像,理應替代信息表達不完備的視頻。我們已經開發出了視達芯片和視達數碼相機,時間分辨率達到4萬赫茲,能夠拍攝高速旋轉的風扇等並得到任意時刻的圖像。歷經近兩百年的圖像觀念和上百年的視頻觀念,在2020年,可以被視達代替了。


光電極速,重啟機器視覺

計算機視覺是從一個眾所周知的笑話開始的。1966年,麻省理工學院教授佩帕特表示:“計算機連接上攝像頭,‘描繪它看到什麼’這個問題一個暑期項目就能搞定。”半個多世紀以來,人們在嘲笑佩帕特低估難度的同時,卻一直在犯一個更根本的錯誤:攝像頭+計算機+算法=機器視覺。很少人質疑用圖像序列(視頻)表達視覺信息的合理性,更少人質疑是否憑計算機算法就能實現真正的機器視覺。


視覺計算思維的主要貢獻者是計算機視覺奠基人大衛·馬爾。馬爾1972年獲得生理學博士學位,論文內容是基於解剖學和生理學數據的小腦功能建模,1973年加入麻省理工學院人工智能實驗室,研究興趣轉到視覺。據托馬索·波焦回憶,他1973年初次造訪馬爾,當時談論的是馬爾感興趣的視網膜特徵檢測器。1976年波焦再次到麻省理工學院短期訪問,兩人討論認為大腦和計算機都是信息處理系統,而理解一個複雜的信息系統,至少應該分成三個層次:計算理論(對功能和行為的理解);表徵和處理;物理實現。這就是馬爾《視覺:人對視覺信息的表徵和處理的計算研究》,這部經典著作的基本思想。


馬爾在著作中描述了自己的“思想轉變”過程:“我也曾相信,真理從根本上是屬於神經的,研究的中心任務就是對神經系統的結構作徹底的功能分析”,轉變為“用神經元(除作為實現一種計算方法的手段外)對視覺現象所做的任何解釋已經不堪回首了。取代它們的便是對一系列問題的明確認識:要計算的是什麼東西?怎樣才能進行這種計算?計算使用的方法基於哪些物理假設?對可執行這種計算的算法怎樣進行分析?”


現在來看,馬爾從神經生理到計算的這個彎轉得過急了。特倫斯·謝諾夫斯基1976年第一次見到馬爾,他最近在新書《深度學習革命》中回憶到:“他(馬爾)追求一種自下而上的策略,從視網膜開始入手(在那裡光被轉換成電信號),並探求視網膜中的信號如何編碼對象的特徵,以及視覺皮層如何表示物體的表面和邊界……具有諷刺意味的是,儘管馬爾在他的視覺研究中採取了自下而上的策略,即從視網膜開始並對視覺處理的每個後續階段進行建模,他的著作卻以倡導自上而下的策略而聞名——首先對要解決的問題進行計算分析,然後構建算法來解決問題,最後通過硬件來實現算法。然而,儘管這可能是在解決問題後對問題進行解釋的一種有效途徑,但對於揭開大腦秘密卻算不上是個好方法。”


馬爾視覺計算理論基於當時最新神經生理學成果,但當時的神經生理學還不足以支撐這個新興學科,馬爾只能猜測視覺信息的處理過程。“表徵”是馬爾視覺計算理論的核心之一,馬爾將之劃分為“要素圖→ 物體2.5維描述→三維描述”三個層級,但是提取這些表徵的算法很難獲得可靠結果。之後,計算機視覺的研究重心轉向表觀分析,2010年前後, 以SIFT(Scale-InvariantFeature Transform) 為代表的尺度不變局部視覺特徵風靡數年,但都沒跳出人工特徵和計算思維的窠臼。


2012年,深度學習將ImageNet視覺對象分類任務的正確率提高十多個百分點,一夜沖垮了計算機視覺積累近半世紀的技術體系,2015年更是將正確率提高到與人類相當,成了計算機視覺的主導思想。但是,深度學習建立在圖像和視頻大數據的訓練基礎上,和主動感知動態世界的生物視覺還相距甚遠,而且仍未脫離計算,例如,如果把視頻幀率從30提高到30000,深度學習的算力就需要提高1000倍。


生物神經網絡是脈衝神經網絡,借鑑生物視覺系統的神經網絡結構和信息加工機理,建立一套新的類腦視覺信息處理理論和技術,是重啟機器視覺的希望所在。視達天然適合作為脈衝神經網絡的輸入,我們提出了基於脈衝神經網絡的對象檢測、跟蹤和識別模型,以視達相機採集的脈衝流為輸入,在普通硬件就能對4萬赫茲視達流進行實時處理,實現了速度超越人類視覺3個數量級的高速視覺。


類腦視覺實際上是脈衝序列在特定結構的脈衝神經網絡上的流轉過程,未來採用硬件脈衝神經網絡和更高速的視達相機,還可超速生物視覺更多數量級。無需擔心計算複雜度,因為類腦視覺本來就不是在計算,性能只取決於光電轉換器件和神經電路的性能,極限是光速。


選自《中國人工智能學會通訊》

2020年 第10卷 第1期 特約專欄


黃鐵軍

北京大學教授、北京智源人工智能研究院院長、CAAI Fellow

AI 研習 往期文章

何曉冬:語言與視覺的跨模態智能

宗成慶:人類語言技術展望


分享到:


相關文章: