2019-05-05 22:50:07 智東西

智東西（公眾號：zhidxcom）編 | 王小溪

導語：時隔一年，谷歌發佈了Google-Landmarks-v2，其中包含了500萬張照片和20多萬個地標圖像。

智東西5月5日消息，據外媒報道，谷歌發佈了一個更大的開源地標識別語料庫Google-Landmarks-v2，其中包含了500萬張照片和20多萬個地標圖像，照片數量是谷歌去年發佈的全世界最大的Google-Landmarks數據集中照片數量的兩倍，地標圖像是去年的七倍。這標誌著谷歌向更復雜的地標檢測計算機視覺模型的目標邁出了重要的一步。

此外，谷歌還在其機器學習社區Kaggle上推出了兩項比賽：地標識別賽（Landmark Recognition 2019）和地標檢索賽（Landmark Retrieval 2019），併發布了區域圖像檢索框架Detect-to-Retrieve的源代碼和模型。

地標識別賽是讓參賽者設計地標識別AI模型，地標檢索賽讓參賽者用AI系統查找顯示目標地標的圖像。比賽獎金達5萬美元，並且獲勝團隊將被邀請參加2019年計算機視覺和模式識別會議第二次地標識別研討會。

一、Google-Landmarks-v2：500萬張照片、20萬地標圖像

根據Google AI軟件工程師Bingyi Cao和Tobias Weyand的說法，Google-Landmarks-v2包含了超過500萬張來自世界各地攝影師收集的20多萬個不同地標的圖像。所提交的照片中，有問題的照片標出了照片中所含的景點，比如新天鵝堡（Neuschwanstein Castle）、金門大橋（Golden Gate Bridge）、清水寺（Kiyomizu-dera）、哈利法塔（Burj Khalifa）、吉薩大獅身人面像（Great Sphinx of Giza）、馬丘比丘（Machu Picchu）和其他著名景點。然後，谷歌研究人員用來自Wikimedia Commons、維基媒體基金會（Wikimedia Foundation）中的歷史性的、鮮為人知的免費圖像、聲音等對這些問題照片做了補充。

Cao和Weyand寫道：“實例識別和圖像檢索方法不管是在圖像數量還是地標種類上都需要更大的數據集，以便訓練更好、更強大的系統。我們希望這個數據集（Google-Landmarks-v2）能夠幫助推進實例識別和圖像檢索技術的進步。”

▲Google-Landmarks-v2中地標位置的熱圖。

二、Detect-to-Retrieve框架

Detect-to-Retrieve是一種區域圖像檢索框架。Cao和Weyand表示，這個框架是由8000個原始地標數據組成的數據集訓練而成，它利用來自物體檢測模型的邊界框來為包含感興趣項目的圖像區域提供“額外的權重”，從而顯著提高了準確性。關於區域圖像檢索框架Detect-to-Retrieve的詳細信息，可參考論文《Detect-to-Retrieve: Efficient Regional Aggregation for Image Search》。

在論文中，研究者首先提供基於谷歌Landmarks數據集的新的地標邊界框數據集來填補，其中包括來自15000個獨特地標的94000張圖像。然後，他們展示了用新數據集來訓練的地標探測器模型，它可用來索引圖像區域並提高檢索準確性。在此外，研究者進一步介紹了一種新的區域聚合匹配內核（R-ASMK）的方法，利用邊界框選定的圖像區域，對局部特徵貢獻進行有效的重新加權，強調最終圖像表示中的相關視覺模式。在不增加內存成本的情況下，顯著提升圖像檢索精度，甚至優於獨立索引圖像區域的系統。

他們提出的區域聚合方法概述：從圖像中提取出深色的局部特徵部分（星星表示）和對象區域（框表示）。區域聚合分兩步進行，使用大型碼本視覺詞（描繪紅色和黃色視覺詞）：首先，用VLAD算法（(Vector of Aggragate Locally Descriptor)）對圖中的每個區域中進行描述；第二，將總和池和每視覺詞歸一化。最終的區域聚合圖像表示可以組合到選擇性匹配內核並提供改進的圖像相似性估計：研究人員將此技術稱為區域聚合選擇性匹配內核（R-ASMK）。