從AI幻術到電商防線:我們聽京東安全專家聊了聊「黑箱」中的祕密

可能大家都有過這種感覺:在迷茫的時候,我們會覺得自己面對的生活是個黑箱子。眼前一片混沌,既看不到未來,也搞不清楚此前都發生了什麼。

這種感覺非常之討厭,可能大部分人都有體會。但是試想一下,假如我們工作時用的系統,居然也是這德性:機器自己做了決定,還不告訴你為什麼。那是不是很恐怖?

無奈的是,這種現象在今天並不少見。由於深度神經網絡的自身複雜特性,導致輸入數據和輸出結果之間的過程難以解釋,變成了一個黑箱。

這就是人工智能領域非常著名的黑箱問題。在很多領域,黑箱正制約著深度學習的應用與發展,尤其在安全領域,黑箱的存在不僅大大增強了AI模型防禦難度,甚至讓很多非常簡單的攻擊,可以產生致命的影響。而攻克和解釋黑箱,往往能夠帶來意想不到的收穫。

這個邏輯可能很多人都知道,但攻克黑箱與網絡安全間到底是什麼關係,可能大部分人都很難理清,更難的是找到案例,讓我們進入AI安全背後的產業價值。

被稱為黑客界的奧斯卡,世界黑客頂級會議DEFCON 2018上,剛剛舉辦了由GeekPwn(極棒)聯合谷歌大腦AlexeyKurakin、IanGoodfellow 以及美國加州大學伯克利分校計算機系教授宋曉冬共同發起的全球首個聚焦AI安全的CAAD對抗樣本攻防賽。會上京東安全戰隊分享了全球首創的AI黑箱解析技術。

腦極體有機會採訪了這項技術的研發者京東安全硅谷研究院負責人Jimmy Su,以及京東安全硅谷研發中心研究員郭文博,與他們聊了聊黑箱解釋與AI安全的一系列問題。

在他們的講述中,從對抗樣本攻擊本身,到黑箱解釋,再到京東的AI安全應用與行業影響,整個案例環環相扣,邏輯流暢,絕對稱得上乾貨十足。

讓我們從頭開始對AI黑箱的探索。第一站要了解的,是著名的對抗樣本問題——這可謂是一種致命的AI幻術。

一種高度危險的AI幻術

AI能夠“看見”東西,這我們都知道。但要注意的是,AI理解所看見的東西,邏輯路徑與人腦並不相同。人類會基於直覺和常識判斷物體,但AI的視覺識別要基於圖像細節來對見到的東西進行數據匹配。而這種模式其實是有顯著隱患的。

2014年,大神Ian Goodfellow發表了一個發現;在一張圖片中加入一些細微的像素干擾,AI模型就很可能分不清到底看見了什麼。人眼可能看上去還是原先的東西,但AI已經被搞迷糊了。

這就像是說桌子上有個香蕉,但魔法師在桌子上再放一個茶杯,就不認識香蕉了。雖然這對人來說不太現實,但AI卻很容易被迷惑。

從AI幻術到電商防線:我們聽京東安全專家聊了聊“黑箱”中的秘密

這就是機器視覺領域著名的對抗樣本問題:有針對性在圖像中加入一些干擾信息,從而讓深度學習模型快速失常。這似乎可以被理解為,一種專門針對AI的幻術。

這個幻術好像乍聽上去沒有什麼,但如果換個場景,我們就會發現它有多麼恐怖。在無人駕駛場景裡,車輛中的AI要依靠“看”交通指示牌來進行主動行駛。那麼只要在交通指示牌中加入一些對抗樣本,無人車就很有可能無法判斷指示牌的含義:可能把停車當成限速或者其他什麼,從而發生交通危險。

從AI幻術到電商防線:我們聽京東安全專家聊了聊“黑箱”中的秘密

這種攻擊方式,已經被若干家無人駕駛公司測試為有效。而另外一種危險的可能,是在醫療影像領域。理論上來說,別有用心的人可以在患者的CT透視等醫療影像上略動手腳,讓AI模型失去判斷力。從而把惡性腫瘤看成沒什麼事,或者反之。

總之,對抗樣本問題可以看做AI應用世界的一個高危漏洞,而問題是,這個漏洞非常難以填補。

讓人無奈的是,攻擊始終比防禦要輕鬆

從2014年開始,如何防禦對抗樣本攻擊,讓AI模型更聰明,始終都是一個熱門話題。但令人無奈的是,攻防關係在今天並不算樂觀。

今年早些時候,機器學習頂會ICLR 2018 接收的8 篇有關防禦對抗樣本的研究中,7 篇都被很快攻破,而攻破他們的技術甚至還是去年的。可見對抗樣本這個問題上,攻擊遠遠比防禦容易的多。

核心原因之一,是對抗樣本的防禦系統要兼顧AI模型的正常使用情況。如果為了防禦對抗樣本攻擊,導致AI模型什麼都認不出來,那就是因噎廢食了。

而對抗樣本的攻擊者這邊,只需要尋找訓練樣例中的最薄弱環節,也就是找到深度學習模型的自身缺陷即可,相對輕鬆很多。

從AI幻術到電商防線:我們聽京東安全專家聊了聊“黑箱”中的秘密

在這樣的水桶難題裡,如今雖然對抗樣本防禦技術有部分進展,但整體而言這必然成為一個長期問題。那麼能不能換個思路完成對抗樣本防禦呢?京東安全團隊想到了一個方案:拆解黑箱,讓人可以監督機器是如何“看錯”的,那麼也就有了解決錯誤的方案。

京東安全的黑盒解釋方案

一般的對抗樣本防禦,都是在深度模型上加入防禦算法。這種方案的根本問題,是即使防禦成功了,也難以知道到底是如何成功的。因為無論是錯誤還是正確,深度神經網絡的工作始終處在黑箱狀態下。

所以,問題的關鍵可能是破解黑箱。

日前,黑客界的奧斯卡DEFCON上,舉辦了全球首個聚焦AI安全的CAAD對抗樣本攻防賽。來自京東安全的JD-Omega戰隊也參與其中。

在現場,京東安全公佈了一套AI解釋系統,可以對深度學習模型的決定進行分析,找到AI做出判斷的依據。

從AI幻術到電商防線:我們聽京東安全專家聊了聊“黑箱”中的秘密

比如說AI識別了一隻貓,這套解釋系統可以分析出AI是如何認識貓的。是因為貓耳朵、貓的身體,還是貓的顏色。假如是因為知道有白貓,於是把白狗也認成了貓,那麼系統就會發現其中的錯誤,讓監督者馬上進行修復糾正。

回到對抗樣本問題中,假如無人駕駛汽車是因為交通車牌上的白點,認為這應該是限速,而不是停車。那麼顯然就是受到了對抗樣本的攻擊。

這套解釋系統,實際作用是提高了AI模型的識別精度。一般來說,深度學習模型都會有微小的錯誤率,但在很多應用場景裡,比如無人駕駛、醫療,都是不可以容忍錯誤率存在的。所以通過解釋錯誤為什麼會發生,從而不斷制定新的訓練策略,可以不斷讓模型效率接近完美。甚至我們還可以藉助這類策略,來觀察“AI的智慧”,從中學到點什麼也說不定。

事實上,對於對抗樣本的防禦,只能說是黑盒解釋系統的一個邊緣產品,在更廣泛的AI+安全領域,它就像風暴中心煽動翅膀的那隻蝴蝶。

在安全領域,攻克黑盒像一枚深水炸彈

黑盒解釋,是一個關乎於AI的問題。在這個領域探索出的每一步,都可能廣泛深刻的影響著AI應用的未來。

在AI安防系統中施加可解釋性系統,對攻擊行為和模型本身進行解釋,就像投入到深水中的一枚炸彈,可以將原本存在的產業隔膜衝擊開。目前來看,類似技術至少可以在四個方面產生影響:

1、提供安全保障,讓更多行業放心使用深度學習。今天很多企業選擇不用深度學習來執行任務。雖然深度學習有這樣那樣的便利,但本身的不可知性,導致很難把握它的結果導向。面對不可知的風險,眾多企業選擇了根本不碰深度學習。如果AI可解釋,那麼用深度學習來提升行業效率,創造價值增長就有了基礎保障。這對安全、醫療、fintech等領域具有廣泛影響。

2、解決了關鍵問題,讓更多人才和注意力集中到AI。在安全產業本身,今天主流注意力還是集中在軟件安全、系統安全等領域,但事實上其中很多工作都可以被AI來代替。在破解AI黑箱難題後,更多人力物力可能會聚合在AI安全的方向下,為安全產業迭代提供可能。

3、可以適應新的保護體。隨著AI應用的更迭,保護AI開始成為新的命題。那麼這就需要對AI系統本身的行為作出解釋。比如說在京東電商體系中,黑箱解釋系統正在被用來分析AI對客戶賬號作出的行為判斷。比如系統為什麼會自動封禁某些賬號,為什麼會作出風控行為。這些可解釋內容,能夠讓京東客服更好地向用戶解釋賬號處理依據。

從AI幻術到電商防線:我們聽京東安全專家聊了聊“黑箱”中的秘密

4、能夠面對千變萬化的攻擊方式。今天,不只是企業本身在應用AI,甚至攻擊者也在利用AI進行攻擊,而這就需要對攻擊行為作出解釋。京東安全的解釋系統,任務之一是打擊黑產。很多黑產系統,是利用機器刷京東的驗證碼。由於這是在利用AI模擬真人,在很多電商平臺類似問題非常難以防範。而利用可解釋系統,就可以捕捉黑產的模擬方式,從而分析出哪些是黑產行為,從而進行針對性打擊。

綜上所述,能夠使用陌生黑盒,並使用不同種類深度神經網絡的可解釋系統,是AI帶給安全產業的一道新防線。AI正在帶給信息安全產業更多目標,以及全新的防禦機制,這一點在今天的京東展現非常充分。

AI安全,正在帶給京東新的防線

AI+安全技術,一方面利用深度學習方式替代了大量安全中的人工行為,另一方面也為深度挖掘自身漏洞提供了可能。可以說有多方面的作用。根據兩位專家介紹,除了上述黑盒解釋應用之外,AI+安全今天已經輸入到了京東的多個層面。比如:

1、賬號安全風控。對註冊登錄等行為進行人機識別,從而完成黑產反制,提高電商系統中的風控規則,達到更加準確的判斷能力。

2、在電商領域進行無監督學習。我們知道,電商智能推薦,依靠的是對商品和訂單進行機器學習,這就需要這些數據具備足夠的標籤體系。但事實上很多訂單是沒有標籤的。今天在京東,已經可以利用AI技術對訂單進行分類驗證,使用無監督學習方案給訂單打標籤。從而再輸入到電商推薦體系中進行學習,最終達到智能推薦的目標。

3、AI安全系統發現場景異常,分析黃牛行為。很多黑產行為,是以短期高爆發的異常行為標誌的,以人工的方式很難完全對此進行區分。而利用AI安全體系,可以主動識別異常行為,甚至可以分析黃牛的行為方案和目的,從而進行有針對性打擊與主動防禦。

4、挖掘安全漏洞。在IoT等新領域,以人工挖掘安全漏洞工作量非常大,並且場景複雜。使用AI主動進行漏洞挖掘可解決相當部分問題,這在京東應用場景非常廣泛。

除此之外,京東還在醞釀安全大腦項目,可以用AI來提升報警響應效率,加強安全風控。可以看到,對抗樣本領域的AI幻術識別,只是龐大AI安全的一角。通過複雜多樣化的AI安全技術應用,京東正在泛電商體系中搭建新的防線。

或許我們在這個案例中可以發現這樣的結論:AI黑箱的破解,往往會帶來連鎖反應。從解決對抗樣本這樣的實際威脅,再到產業應用帶來真實價值增長。黑箱當然可怕,但解決黑箱卻可能成為快速發展的契機。

當然,真正拆解黑箱我們還要走很遠很遠。但黑箱與解釋黑箱的這場賽跑,正在帶來沿途令人激動的美景。


分享到:


相關文章: