大會|ECCV 2018 德國慕尼黑召開,來份 tutorial 預熱

AI 科技評論消息,計算機視覺歐洲大會(European Conference on Computer Vision,ECCV)於 9 月 8 -14 日在德國慕尼黑召開,今天已進入會議第二日。會議前兩日為 workshop 和 tutorial 預熱環節,主會將於當地時間 9 月 10 日召開。

今年 ECCV 共計 11 個 tutorial,議題涵蓋當前熱門的對抗性機器學習、面部追蹤、行人重識別、視頻識別等多個方向。接下來,AI 科技評論將會對這些議題進行具體介紹,關注 ECCV 的小夥伴們,快快 mark 吧!

Tutorial 1 對抗性機器學習

包括深度神經網絡在內的機器學習和數據驅動的人工智能技術目前已經有諸多應用,涵蓋了從計算機視覺到網絡安全等諸多領域。在垃圾郵件和惡意軟件檢測在內的應用中,學習算法必須應對手段高超、適應性強的攻擊者,因為攻擊者可以操縱數據故意破壞學習過程。

由於最初設計這些算法的時候並沒有考慮到這種攻擊情況,一旦面臨精心設計、複雜的攻擊時,這些算法毫無招架之力,攻擊形式包括測試時的逃逸攻擊(evasion attack)和訓練時的藥餌攻擊(poisoning attacks,也稱對抗性樣本)。對抗這些威脅以及在對抗性環境下學習安全的分類器和人工智能系統已經成為機器學習和人工智能安全領域一個新興的研究主題,被稱為對抗性機器學習。

這次 tutorial 將涵蓋如下四點內容:

  • 對抗性機器學習的基礎知識;

  • 用於對抗性任務的機器學習算法的設計週期;

  • 最新提出的評估學習算法在遭受攻擊時性能的技術,能夠評估算法漏洞,並提升面對攻擊時魯棒性的防禦策略;

  • 一些對抗性機器學習算法在目標識別、生物特徵識別、垃圾郵件和惡意軟件檢測中的應用。

PDF地址:

http://www.diee.unica.it/~biggio/slides/Roli-Biggio-ECCV18-tutorial.pdf

Tutorial 2 對於人、物體和環境的超快三維感知、重建以及理解

虛擬現實和增強現實的興起讓人們希望三維場景捕獲、重建和理解系統的魯棒性更強。設計這樣的系統需要開發高質量的傳感器和能夠利用新技術和現有技術的高效算法。基於這一考慮,我們設計了具有兩個特徵的深度傳感器,大大簡化了融合不完整的傳感器數據的問題。

首先,我們使用一個超快的深度數據流,顯著減少了幀到幀之間的運動。其次,我們通過使多個傳感器能夠容易地組合(不干擾的情況下)從而消除遮擋。最終,我們開發了一系列高效的算法,用於場景重建、目標跟蹤和場景理解,而這些算法都是為了配合這項技術而設計的。

在這一 tutorial 中,我們將帶領讀者從頭到尾構建這樣一個程序棧,最開始將建立一個用於特別強調高速三維場景捕獲系統的混合現實應用的傳感器。

Tutorial 3 將微軟 HoloLens 全息眼鏡用作計算機視覺研究工具

微軟 HoloLens 是世界上第一臺獨立的全息電腦,它同時也是一種強大的計算機視覺研究設備。應用程序代碼可以訪問音頻、視頻流和表面網格,所有這些數據都存儲在 HoloLens 高度精確的頭部跟蹤技術維護的世界座標空間中。

這一 tutorial 將深入介紹 HoloLens 的新「研究模式」功能,展示如何訪問原始頭跟蹤和深度傳感器數據流,,此外,還將展示 Azure 項目的 Kinect 中的飛行深度感知技術的最新進展。

Tutorial 4 面部追蹤及其應用

這一 tutorial 的內容與單目面部追蹤技術相關,並討論了這一技術可能的應用場景。具體而言,涵蓋以下主題:

  • 輸入方式(RGB 和 RGB-D 傳感器);

  • 成像模型(攝像機模型和光傳輸模型);

  • 統計面部先驗和融合變形;

  • 先進的人臉模型和參數綁定;

  • 基於優化的面部重建;

  • 面部重建的應用;

  • 視頻編輯、面部重建、視頻配音、面部投影映射;

  • 用於面部重建的深度學習技術;

  • 開放性的挑戰;

  • 社會影響。

相關研究包括:

  • Zollhöfer 等人的「單眼三維人臉重建、跟蹤及其應用的研究進展」;

  • Sylianou 等人的「基於圖像的三維面部重建綜述」;

  • Klehm 等人最近發表的關於捕獲面部外貌特徵的報告,試圖通過 CG 技術重新繪製人臉;

  • Bouaziz 等人的面部跟蹤與非剛性表面配準問題,其目標是將特定的表面與圖像或三維掃描結果對齊;

  • Orvalho 等人討論面部表情綁定的綜述和 Lewis 等人關於給予融合變形的面部動畫的綜述。

Tutorial 5 行人重識別的表徵學習

行人重識別任務的目的是在一個龐大的行人圖像數據庫中找到一個待查的人,這樣我們就可以通過攝像頭定位感興趣的人。該課題的研究和應用具有重要的意義,近年來迅速受到了學術界和產業界廣泛的關注。傳統意義上說,行人重識別的特點是視覺描述符和相似性度量的有效組合。目前,前沿研究已經進展到深入學習到既具有判別能力又高效的不變特徵嵌入。

這一 tutorial 還介紹了許多研究任務,例如基於視頻的、基於語言的、基於檢測信息的重識別工作,將指出當前的研究進展,討論用於行人重識別任務的表徵學習的最先進的方法,討論未來可能的研究方向。

數據集:

http://robustsystems.coe.neu.edu/sites/robustsystems.coe.neu.edu/files/systems/projectpages/reiddataset.html

代碼:

https://wangzwhu.github.io/home/re_id_resources.html

Tutorial 6 訓練深度神經網絡的歸一化方法:理論和實踐

特徵、權重(kernel)和梯度歸一化方法已成為深度神經網絡(DNN)的重要組成部分。然而,我們對這些方法的理論基礎和數學原理仍然不很清楚。此外,在實際的計算機視覺任務中使用各種大規模深度神經網絡(如卷積神經網絡(CNN)和小批量循環神經網絡(RNN))等理論是一個挑戰。

為此,這一 tutorial 將首先回顧最近的工作,為不同的輸入-輸出通道中應用的不同歸一化方法的幾何和統計特性提供數學證明。本 tutorial 提出的歸一化方法的理論分析利用了數學工具,可以指導研究者開發新的歸一化方法,幫助更好地理解歸一化方法的理論基礎。此外,在重要的視覺應用環境中,將考慮使用批量歸一化、塊正交權值、小批量卷積神經網絡和循環神經網絡的梯度歸一化等各種特殊歸一化方法。

PDF地址:

https://eccv2018.org/wp-content/uploads/2018/08/v2.pdf

Tutorial 7 Functional Map:學習和計算的對應關係的靈活表示

這一 tutorial 將介紹基於 functional map 表示的形狀之間的學習、計算和處理相似情況的技術,廣義上可以理解為領域或 signal geometry、接近或連接(例如圖像、點雲、網格或圖形)。這一 tutorial 將提供該框架在計算機視覺和機器學習問題中的數學背景、計算方法和各種應用。

PDF 地址:

https://drive.google.com/file/d/1lADZt9WQEJV0kCf6BJcLZqbg_7PtmNUB/view

https://drive.google.com/open?id=1DomCVGjwzE163lRW4jXz2v0RAGPOiMyn

https://drive.google.com/open?id=1bLYAkFjaTQ03uJXii0Ntvn8pISYEQL1f

Tutorial 8 視覺定位:基於特徵的方法 vs 基於學習的方法

該 tutorial 主要會講如下內容:

  • 基於特徵的定位研究現狀

涵蓋基礎知識:圖像局部特徵、相機姿態估計、描述符匹配;高效(移動)定位;可伸縮的基於特徵的定位。

  • 基於學習的定位研究現狀

涵蓋基礎知識:隨機森林,卷積神經網絡;學習相機姿態迴歸;場景座標迴歸。

  • 當前的熱點話題和開放性問題

涵蓋基於特徵和基於學習的方法的失敗案例;長期定位:對更高層次場景的理解;基於學習方法的開放問題。

PDF地址:

https://drive.google.com/open?id=1s6Y8FM3K654z0ZslDdjYkJUz-uH_0523

https://drive.google.com/open?id=1Kuk_H2eYW1hc7b16jiOipUdigjmM6GV8

https://drive.google.com/open?id=1Oxv6k_gGaom9vFOyg-7b3Klo8Emu8_Hp

https://drive.google.com/open?id=1VHn0W4PqzO1xRd56O2zhgNq86W6v6hfU

Tutorial 9 在 TRECVID 對比基準實驗中的視頻識別和檢索

這一 tutorial 將重點回顧 TREC 視頻檢索評估(TRECVID)的歷史,討論一些 TRECVID 任務,並強調參與者的方法,總結教訓。下面是具體內容:

第 1 講:TRECVID 簡介

討論 TRECVID 的歷史,包括 TRECVID 的目標、自 2001 年以來支持的不同任務和數據集,該項目對研究社區的影響,可用的資源和未來的發展方向。

第 2 講:視頻轉文本(VTT)

涵蓋 TRECVID 視頻轉文本的操作,包括使用的數據,參與者採用的方法,學到的經驗教訓和評價視頻標題生成的獨特方式。

第 3 講:Ad-Hoc 視頻搜索(AVS)

相關主題有:大型概念庫的構建,通過自然語言處理技術從一個ad-hoc 查詢中選擇搜索關鍵字,利用搜索關鍵字選擇概念分類器。

第4 講:活動識別(MED/SED)

重點介紹在多媒體事件檢測(MED)和監督事件檢測(SED)的語境下,對活動的時空檢測的經驗教訓,活動例如「做木工」、「打開樹幹」、「在沒有車的情況下贏得比賽」。

第5 講:實例搜索(INS)

將對實例搜索任務進行概述,接著給出標準的處理流程,包括使用視覺詞袋技術生成短列表,處理幾何信息和語境。

Tutorial 10 通過步態和麵部分析實現的遠距離人體識別

主要會講到如下內容:

1. 動機、挑戰、可用的步態和人臉數據集

2. 基於步態和人臉的人體識別系統的全面綜述

  • 傳統的基於步態和人臉特徵的遠距離人體識別方法:圖像表示;特徵降維;分類

  • 先進的基於步態和人臉特徵的遠距離人體識別的深度學習方法:步態和人臉識別的網絡架構設計;輸入特性、輸入分辨率、時序信息、數據增強等對性能的影響因素;在共同的對比基準上的最先進的步態和麵部識別結果。

Tutorial 11 實例級視覺識別

該 tutorial 涵蓋了視覺識別研究的前沿課題,介紹了圖像分類、目標檢測、實例分割、語義分割、全景分割和密集人體姿態估計的方法和原理。

議程如下:

  • 學習視覺識別的深層表徵

  • 泛化 R-CNN 對象檢測框架

  • 全景分割:統一語義和實例分割

  • 深入分析用於視頻識別的卷積神經網絡

  • 基於自然數據集學習稠密對應

注:各大 tutorial 的 PDF 持續更新中,具體信息可以參見:

https://eccv2018.org/program/workshops_tutorials/


分享到:


相關文章: