什麼是跨模態搜索，主要的技術方向有哪些？

2018-07-13 07:26:37 佚名

浪浪的老唐

首先介紹一下什麼是模態。這裡模態指的就是文字、圖像、聲音、視頻等信息的載體。跨模態信息搜索（又稱跨媒體搜索）就是通過尋找不同模態之間的關係，實現利用某一種模態樣本，去檢索近似語義的其他模態樣本。

下圖就是圖文搜索的過程示意，輸入要查詢的信息圖片或文字，然後在數據庫中找到與之有相同語義的圖文，最後返回結果。

跨模態搜索的難點在於如何比較不同模態之間數據的相似度。因為模態之間的信息表達形式差別很大，因此首先需要將他們轉化為方便進行比較的表示。最常用的表示方式就是對數據提取特徵得到數據的特徵向量。而不同的文本所對應的向量空間仍有很大的差異。所以還需要進一步的將不同模態都映射到同一語義空間中來進行比較。

按照向量的表示不同，跨模態搜索可以分為實值表示和二值表示。即向量是實數還是0-1。表示成0-1的好處在於能夠加快搜索比較的速度。

而依據學習的數據形式不同，跨模態搜索還能夠劃分為一下四種

1）無監督學習，指的是對共現信息的表示學習。共現信息就是隻要不同模態的數據出現在一起，就可以認為他們是相關聯的。比如網頁中新聞的圖片和文字信息等等。

2）成對的數據的學習，即不同模態的數據已經成對匹配好了。而在此基礎之上進行跨模態信息的檢索。

3）基於排序的學習，關鍵在於如何設計出he

4）監督學習，利用已經人為標記好的標籤信息來進行學習。不僅要學習出不同模態下相同語義的關係，同時也還要學習出不同模態的相同標籤之間數據的關係。

ICMLL實驗室

一、概念

這樣來理解就會很簡單的：

如今，是移動互聯網時代,每個人都能隨時隨地、自由地通過網絡發佈信息、傳遞信息和接收信息。這些信息中通常包含文字、語音、圖片、視頻等多模態數據。在日常搜索中，單純的文字搜索、語音的搜索，就是單模態搜索。而以一種模態如文字，同時去搜索相關的圖片、語音與視頻的話，就叫做跨模態搜索。

簡單吧！但是技術跨越卻並不能那麼簡單。

根據這一定義，你是不是就輕易知道：跨模態搜索將是未來社會、人們生活發展的方向和必須了吧！！

二、憧憬：未來趨勢

“跨模態搜索”這個概念，現在看起來很生僻，但是，未來會非常普及的，就像如今文案需要打印，而不像1990年代，要用筆書寫一樣，這是社會、人們生活發展的必然趨勢。

三、典型技術方向

這麼數年，據我淺薄的觀察，主要有四種比較典型的跨模態檢索方法：

1、線性迭代和映射。該種檢索方法是結合doc2vec和ITQ的跨模態多媒體信息檢索。

2、非線性流形。是基於主題模型的跨模態多媒體信息檢索。

3、概率模型。融合多特徵的跨模態信息檢索方法，該種方法的目的都是旨在以不同的方式來橋接不同模態如圖像、文本、視頻、音頻等的多媒體信息。

4、異構分析。

5、另外，還有哈希算法運用的方向。

四、深度學習的技術方向

一些專業人士認為，基於神經網絡的深度學習，或許是未來最能看好的方向。

這是因為，近年來,深度學習技術在圖像、語音、自然語言處理等各個領域都取得重大的進展，展示出深度學習模型具有處理不同模態信息的能力，其在處理不同模態信息時模型結構上的類似性，以及逐層深入的編碼能力，為建立跨模態信息檢索模型提供了有力的工具。

不過，目前在效果方面似乎並沒有明顯超越傳統方法。

關於這一技術突破的難度，需得研究深度學習的本質。

就深度學習本身來說：

深度學習的“深”就是有很多隱層，其實質就是通過構建具有很多隱層的模型和海量的訓練數據，來學習更有用的特徵，從而最終提升分類或預測的準確性。我們以識別“老虎”為任務的機器系統為例，最底層識別顏色或輪廓等簡單的東西，層次往上，識別的特徵越複雜，比如皮毛或眼睛等，最頂層則會將所有特徵彙總最終確定其對象是老虎。同樣的學習方法也可被應用到其他方面，包括文本中形成句子的字節、演講中所用詞彙的發音和詞彙，或者駕駛所需的方向盤動作等。其好處：無監督訓練，節省大量人力標識工作，且有能力處理大量的數據；相比傳統淺層學習的神經網絡，通過逐層訓練的方法降低了訓練的難度；深度學習比淺層學習算法往往有20-30%成績的提高。

——摘自《新未來簡史》（是“新”，非《未來簡史》）一書

看來，深度學習比曾經的淺層學習也只能提升20-30%成績，然後，似乎就又遇到瓶頸了。

實際上，這種跨模態搜索，與機器學習的中的“通用學習”有些類似。

五、對抗學習GAN提升跨模態檢索效果

比如阿里巴巴AI Labs等團隊最新工作，就是這一課題，鏈接：https://cloud.tencent.com/developer/article/1093141。

但是，你利用對抗學習的時候，就會出現：

如果你模仿某人去完成某個任務（生成網絡），如果頂級高手（對抗網絡）都無法分辨這一事項是你完成抑或是模仿完成的，這說明你已經完全掌握了該任務的所有技能。但是，對於巨幅精細而難度很高的繪畫作品、撰寫論文這些複雜事項，可能就不再那麼適用了。看來，對抗學習也有它的侷限性，也僅僅在中等難度的任務具有廣泛地實用性而已。

——摘自《新未來簡史》（是“新”，非《未來簡史》）一書

然而機器（或AI）的“通用學習”要實現有多難，幾乎不能跨越。關於這些的深度論述，建議讀一讀《新未來簡史》一書的第8章，用了2萬餘字來分析這些問題。所謂“汝果欲學詩、功夫在詩外”！

前沿互動

首先呢，與傳統的單模態搜索不同，在跨模態搜索中，搜索結果的模態和查詢的模態是不同的。比如，用戶使用圖像搜索文本，視頻和音頻。跨模態搜索的關鍵在於對不同模態的關係進行建模，難點就是跨越語義鴻溝。然而，當要搜索的文檔包含多模態的時候，一般的跨模態方法就無法直接應用到多模態搜索。

還有一種多模態搜索，多模態搜索方法可以處理帶有多個模態的多媒體數據，在多模態搜索中，查詢和要搜索的文檔可能包含不止一個模態。多模態搜索方法可以用來提高單模態搜索的準確度。多模態和跨模態搜索的主要區別在於: 在多模態搜索中，查詢和要搜索的文檔必須至少有一個模態是相同的。多模態方法通常是融合不同的模態進行搜索，而不是對他們的關係進行建模。比如，在許多多模態圖像搜索系統中，查詢圖像可能都有相關的文本，要搜索的圖像也包含相關的文本信息。而如果查詢和要搜索的文檔沒有相同的模態，那麼這就是跨模態要解決的問題，傳統的多模態方法就無能為力了。

主要的技術方向我知道的有以下幾點：哈希學習、深度學習、協同訓練、核典型相關分析與神經網絡

分享到:

關鍵字: 樣本模態科技