計算機視覺已超越人類眼睛?

計算機視覺已超越人類眼睛?

摘要:視覺是人類認知世界的重要組成部分,而計算機視覺作為人工智能的核心技術之一,近幾年的發展現狀如何?

視覺是人類認知世界的重要組成部分,而計算機視覺作為人工智能的核心技術之一,近幾年的發展現狀如何?

在目前的人類生活中有這樣的應用?是否已經超越人類的眼睛?未來又將有怎樣的發展前景?

近日,騰訊優圖與《科學》(Science)雜誌共同發佈《Seeing is believing: R&D applications of computer vision》(眼見為實:計算機視覺的研發和應用)主題報告,通過全球計算機視覺領域的專家訪談,為大眾帶來當下計算機視覺技術發展的全面解讀,也為即將到來的計算機視覺峰會拉開序幕。

眼見為實:計算機視覺研發和應用

人工智能 (AI) 曾經只是一種存在於科幻領域的科技,而現在,研究實驗室已經不斷研發出了各種應用AI 的日常產品。

AI技術的進步很大程度上得益於計算機視覺的發展。計算機視覺技術關注的是構建能夠收集和處理視覺信息的軟件。應用計算機視覺可以識別照片中的人物、讀取X光片、進行工廠機器人系統的智能升級,但它的影響範圍遠不止於此。

大多數人都對自己的視覺習以為常,殊不知要拿起叉子或接住球,我們的大腦要進行大量的運算。計算機變得足夠快速、強大和小巧來實現計算機視覺的實際應用,不過是這幾年的事情。

最先進的計算機視覺技術要運用到深度學習,而深度學習是AI的一大領域,靈感來自於人腦。深度學習算法使用的人工神經網絡(ANN),是指能夠分析並相互傳遞信息的互相連接的節點層,與神經元的通信機制類似。

如果我們向神經網絡展示一張自拍照,一層神經元將會識別類似於面部輪廓的粗線條;另一層神經元會關注五官之間的區域,例如眼睛到嘴巴的距離;還有其他神經元會負責觀察耳朵的形狀。藉此,該算法可判斷出這是不是一張人物照片,甚至看出這人是誰。

“在大多數計算機視覺任務當中,神經網絡都能輕而易舉地生成最佳算法,”騰訊優圖實驗室傑出科學家賈佳亞說道。騰訊總部位於中國深圳,是互聯網服務和產品、娛樂及人工智能的全球領導者。

計算機視覺已超越人類眼睛?

像人工神經網絡一樣,計算機視覺技術工程師也在試圖模仿人類視覺系統的運作機制。但是機器比人更有優勢的一處是,它不需要像人類那樣依賴可見光,還能使用傳感器更清楚地看到世界。

“在人臉識別、圖像分類等眾多任務中,計算機視覺能比人類視覺完成的更優秀。但在其他需要推理的任務,計算機視覺還有很長的路要走。”賈佳亞表示,“人類能輕易明白物體彼此之間的關聯,我們看到一張圖就能編出一個故事。但計算機還遠不能達到這種程度的理解能力和想象力。”

隨著計算機視覺技術的不斷髮展,它將會帶來更多新的發現。計算機視覺和 AI 都處於各自發展的初始階段,還有很多東西值得探索。

計算機視覺技術的進步可能會推動AI 的迅猛發展,把科幻小說的情節全部變成現實——比如無人車、機器人管家,甚至遠距離太空旅行。


在實踐中學習:AI 的工作原理

跟大多數 AI 系統類似,計算機視覺需要學習浩如煙海的數據。研究人員查閱數據並根據其特徵仔細為數據添加標籤,這些特徵就是他們希望 AI 去理解的東西。

就計算機視覺的任務而言,研究人員會收集成百上千的照片用於分析。加標籤的數據會成為範例,據此訓練 AI 進行分類或尋找規律。為了測試 AI 的學習效果,研究人員會展示新的、未加標籤的圖像,測試其是否能夠正確分類。

除了要在收集、標註和籌備龐大資料的工作中投入人力外,另一個重要障礙就是運行訓練算法需要的大量計算能力。

費用低廉的在線服務,讓研究人員可以在雲端訓練算法,而無需為強大的計算機投入數千美元,不過,要得出訓練結果仍需數小時甚至數日。


對著鏡頭微笑:圖像和視頻識別

人工神經網絡領域最重要的進展之一出自 ImageNet。ImageNet收集了 1400 萬標籤圖像並於2009年發佈。

ImageNet挑戰賽要求參賽者設計一個能夠跟人類一樣對照片進行分類的算法,但一直沒有出現獲勝者。直到2012年,一個使用深度學習算法的參賽隊伍取得了顯著優於以往嘗試的結果。

人們與計算機視覺產生交互的最常見的幾種方式包括圖像自動標記和拍照面部識別等,都是基於ImageNet獲勝的技術。這些應用有助進行網上購物可視化搜索、自動標註社交媒體照片等特定任務。

除了圖像識別外,這項新科技也推動了照片編輯技術的發展。圖像分割算法是計算機視覺的組成部分,可以幫助機器將一張圖片分成不同的部分,例如識別背景和前景中的人物。用戶可迅速編輯照片,達到專業修圖的效果。

視覺識別能力目前也應用於視頻。計算機視覺算法可以查看攝像機的視頻流,並且標記重要部分,這樣人們就無需反覆回看長達數小時的視頻。

瞭解視頻中人物的情緒是一項研究人員正在開展的工作,不過有些機構已經率先採用了這類技術。例如坐落在中國東部浙江省的杭州第十一中學,正在嘗試用攝像頭追蹤學生的課堂行為,這些攝像頭被稱為“慧眼”。

計算機視覺已超越人類眼睛?

讓機器人擁有正常視力

將2D 圖像轉化成3D 數據,帶來了一系列不同的挑戰以及眾多的新機遇。給機器人賦予計算機視覺就是一個正在展現出前景的領域。

機器人在 20世紀 60年代開始投入製造業使用,這些裝置可以提升重物,執行重複性任務,並且可以一次進行數小時的精確測量,從而輕鬆地勝過人類。

斯德哥爾摩 KTH 皇家理工學院的機器人學教授 Danica Kragic 說:“這一領域始終關注的是建造出那些可以完成人類無法完成任務的機器人。”

Kragic表示,因為人類有40% 的大腦致力於處理視覺信息,如果要創造能夠模仿並參與我們世界的機器,瞭解它們在多大程度上需要視覺信息是非常重要的。“我們人類在做任何事情時都會自然而然地使用視覺反饋,” Kargic說。

能夠處理視覺信息的機器可以在工廠中完成更復雜的工作,甚至進入了我們的家庭。某些技能(例如,拾取會因壓力而改變形狀的柔軟物品)對機器人來說仍然是遙不可及的。

這是因為人類在觀察時,獲得的不僅僅是視覺信息;我們還會獲得有關物體物理屬性的線索,以及與之交互所需要的物理知識。機器需要能夠收集這類信息,才能像人類一樣毫不費力地穿行在物理世界中。

“在五官感覺當中,視覺是最重要的,因為它賦予了人類理解這個複雜世界的能力。”賈佳亞說,“同樣地,計算機視覺就是為了讓計算機能夠像人類一樣觀察環境並能跟環境互動。”

賦予機器人能夠更好地瞭解世界的傳感器是該技術的下一個迭代,它可能讓機器人完成在今天尚無法實現的任務。

即將上路:自動駕駛汽車

自動駕駛汽車是 AI 開發領域中獲得資金最充裕、最受關注的領域之一,全面瞭解世界對於自動駕駛汽車(AV) 也是至關重要的。

除了攝像頭,大多數無人駕駛汽車使用激光雷達、雷達、GPS 和感知算法進行導航。

“我們使用的許多算法都來自計算機視覺,但現在它不僅僅是關於攝像頭數據,”多倫多大學副教授兼優步多倫多高級技術集團負責人 Raquel Urtasun 介紹說。“我們想給汽車裝上的,不僅僅是我們的眼睛。”

像優步這樣的公司希望到 2020 年前能實現自動駕駛汽車上路和載客。

這些汽車只會在預先選定的路線上行駛,或需要有人坐在駕駛員座位上,以便在出現任何問題時能夠手動接管。

這項技術最終的目標是實現真正自主,使得乘坐者除了注意路況外,還可以做其他活動。

Urtasun 表示,為了實現這一目標,需要在硬件和軟件兩方面都取得進步。

在硬件方面,激光雷達可能花費數萬美元,這使得大規模部署成本太高;在軟件方面,工程師需要找到一種方法來使 AI 具備歸納、區分不同物體的能力。

如果一個人類駕駛員在道路上看到一些出乎意料的東西(比如一條墜落的電源線),他們會知道應該繞過電線。而如果一輛自動駕駛汽車遇到訓練中沒有經歷過的事情,它可能無法安全地做出反應。

Urtasun 表示,雖然自動駕駛汽車現在尚未迎來發展的黃金期,但她對自己在改進傳感器和訓練算法上的努力能夠有效應用仍然充滿希望。

Urtasun進一步介紹,幸運的是,“這項技術能夠解決許多其他問題。”改進的激光雷達可以使地圖測繪和土地調查更加準確,甚至配備傳感器的非自動駕駛汽車也可以幫助改善交通狀況。

特快專遞:無人機

計算機視覺已超越人類眼睛?

汽車不是研究人員唯一希望能夠自動駕駛的東西:無人駕駛飛機也正在接受自動飛行的訓練。無人機研究與自動駕駛汽車研究面臨著同樣的難題。

高質量的訓練數據既困難又昂貴,不同的飛行方式意味著無人機需要接受不同的新場景訓練,而且法規使得在某些領域難以進行測試。即使是曾經受過訓練,飛行過程仍然會非常困難。

“任何嘗試過控制無人機的人都知道這不是件容易的事情,”比利時研究型大學天主教魯汶大學的教授 Tinne Tuytelaars 說道。

不過,與自動駕駛汽車不同,無人機犯錯的成本更低。“如果一架無人機墜毀,”Tuytelaars 聳了聳肩,“也不是件什麼大不了的事。”

無人機已經可以投入到諸如協助救災和管道檢查等的應用。有朝一日它們將會可以進行送貨並提供載客服務。

像亞馬遜和波音這樣的公司已經在測試無人機,未來它們可能會像現在的郵遞員那樣投遞包裹。

在某些情況下,多架無人機可能出現在同一個空域內,並且可以比人類飛行員更好地實現彼此間飛行的協調。使它們自動飛行意味著可以降低成本,將技術帶到全世界更多人和公司的手中。

機器人醫生

除了交通工具,計算機視覺給醫療領域帶來的變化是最顯著的。AI 算法已經可以比放射科醫生更好地從醫學影像中識別出病症,例如骨折和肺炎。

“大數據的爆發,尤其在醫療領域的爆發,意味著我們能獲得更多的數據來進行研究。”西班牙奧維耶多大學計算機學系助理教授 BeatrizRemeseiro表示,“我們正在利用數據去解決比以往更復雜的難題。”

去年,谷歌宣佈開發出新的圖像識別算法,可用於檢測糖尿病視網膜病變的跡象,這種病變如果不及時治療會導致失明。

這種算法能媲美人類專家,可以在患者視網膜的照片中發現小動脈瘤,這種動脈瘤是病變的早期跡象。

2017年,騰訊也發佈了一款用於醫學領域的AI產品——騰訊覓影,能夠通過掃描上消化道內鏡圖片篩查食管癌,對早期食管癌的識別準確率高達 90%。

目前,騰訊覓影已經應用於中國100多家醫院,未來也將輔助診斷糖尿病視網膜病變、肺結節、宮頸癌及乳腺癌等。

其他運用 AI 技術的工具也被用來更早地發現中風,為患者提供更好的生存機會。美國食品和藥物管理局最近宣佈將簡化流程,以便幫助 AI 產品更快地獲得批准。

當然,這些工具並不會很快就替代醫生,它們起到更多是顧問的作用,而非取代從業醫師。

計算機視覺可以提高工作效率,並使醫生短缺地區的人們能得到更多醫療服務。這些創新技術也正在被用來最大限度地減少對人體的侵入性危害。

例如,CT 掃描比 X 射線能獲取更多信息,但會使患者暴露在更大的輻射中。AI 則可以對X光片進行分析後,給醫生提供相當於CT掃描的信息。

“醫學影像是通過計算機視覺可以提供更多信息從而真正產生影響的領域,”康奈爾大學計算機科學系教授、谷歌研究所研究科學家 Ramin Zabih 表示。

“醫學史已經證明,如果醫師可以獲得更多的數據,這可能意味著能更好地幫助到患者。”

遠和近:邊緣設備和航天器

所有這些領域都令人印象深刻,計算機視覺的未來會更加光明。即將開始影響該行業的最大變化之一,就是邊緣設備——在兩個網絡的邊界控制數據流轉的硬件。

大多數 AI 處理需要在大型遠程雲服務器上完成,因為運行這些算法的計算密集程度很高。另一方面,人們製造了邊緣設備,從而具有足夠的處理能力能在本地完成工作。

隨著像 Nvidia和Facebook這樣的公司開始製造專門用於運行 AI的芯片,邊緣設備正在變得越來越普遍。

這將可以實現更快、更安全的數據處理,並且能讓用戶通過自己的數據進行更多 AI 自定義訓練,增加個人結果的定製程度。

“它將推動更多的創新,”總部位於加利福尼亞的 Movidius 公司前首席執行官 Remi El-Ouazzane表示,該公司為計算機視覺設計專用的低功耗處理器芯片。

目前 Remi El-Ouazzane也擔任英特爾 AI 產品集團首席運營官,這是另一家生產半導體芯片和微處理器的加州科技公司。

El-Ouazzane 表示,從智能家居設備和監控攝像頭到自動駕駛汽車,數十億臺設備都可以運用 AI 技術並在邊緣設備上工作。

這還將創造能夠找到失蹤人員的技術(例如,通過掃描人群圖像),或者可以在孩子睡覺前沒有刷牙的時候能夠提醒父母。

“問題不是‘能不能實現’,而是‘什麼時候實現’。”他說。

在邊緣設備的微世界之外,天文學家們也對計算機視覺特別感興趣,他們從無盡太空中收集到大量數據集並進行研究。

Kaggle 是一個用於預測建模和分析競賽的在線平臺,在Kaggle上就有一個比賽利用深度學習和計算機視覺技術讓研究人員能夠通過觀察天文圖像發現更多關於支配我們宇宙的暗物質的相關信息。

此外,還有一個致力於通過 AI 促進探索太空的研究孵化器。前沿開發實驗室 (FDL) 是美國航空航天局 (NASA) 與英特爾 AI、谷歌雲、洛克希德和 IBM 等公司共同建立的合夥機構。

FDL將天文學家和計算機科學家帶到了加利福尼亞州硅谷共同工作8周,解決諸如瞭解太陽耀斑、繪製月球地圖和尋找小行星等問題。

根據 FDL 創始人之一 James Parr 的說法,如果沒有計算機視覺,計劃就無法成功。

事實上,位於美國加州帕薩迪納的NASA 噴氣推進實驗室 (JPL) 對於攝像技術的發明起到了至關重要的作用,該技術影響了如今的大部分計算機視覺軟件。

“計算機視覺與太空計劃之間存在共生關係,” Parr 說。“但這個議題在太空行業的討論度還不足夠。”

太空探索將同樣受到影響,因為AI 對於前往火星以及更遠的地方至關重要。

太空旅行者和地球指揮中心之間的通信滯後意味著系統必須要能夠做出自主決定,而這些決策很多都是由視覺數據來推動的。

“隨著我們不斷向外探索,我們需要機器人和自治系統為宇航員做好準備並提供協助、建造結構、定位並提取資源,” Parr 說。“這是發現和探索過程中激動人心的時刻。”

探索計算機視覺將如何改變地球上的生活,同樣令人激動。隨著 AI 擴展到更多領域並發展出新功能,它可能會遇到新的技術難題。但是,當我們回顧 AI 的歷史時,給計算機提供視覺的能力可能是最重要的一項進步。擁有視力的機器將帶領我們走向更光明的未來。


分享到:


相關文章: