從Siri閉門造車到開放機器學習,詳解蘋果 AI 實踐的三個階段

在這篇長文裡,我將梳理過去 9 年蘋果在人工智能領域的探索,包括以下幾個方面:

  • 喬布斯為何要買下 Siri ?
  • Siri 是如何被蘋果「毀掉」的?
  • 為什麼 2016 年 WWDC 大會是蘋果 AI 實踐的轉折點?
  • Core ML 帶來那三重意義?
  • 2018 年蘋果 AI 產品和團隊調整的意義如何?
  • 2019 年蘋果會如何將 iPhone 與 AI 結合起來?

本月初,CNBC 率先報道了 AI 領域知名學者、GANs(對抗式生成網絡)提出者 Ian Goodfellow 離開 Google 並加入蘋果的消息。

CNBC 發現,Ian Goodfellow 在週四更新了自己的 LinkedIn 個人資料,顯示這位 AI 領域炙手可熱的研究者已經在今年 3 月加入蘋果,併成為蘋果「特殊項目小組」的機器學習負責人,該小組直接向蘋果 CEO 庫克彙報。

媒體對於 Ian Goodfellow 的關注較多,此君在 2013 年以實習生身份加入 Google,一年後,他完成了一篇題為《Generative Adversarial Nets》的論文,該論文提供了一個計算機如何生成圖片的思路——將兩個神經網絡相互對抗

從Siri閉門造車到開放機器學習,詳解蘋果 AI 實踐的三個階段

這個方法引發行業震動,包括 Facebook AI 首席科學家 Yann LeCun 以及參與 Google Brain 和百度大腦建設的吳恩達,都肯定了該方法對於機器學習發展的的重要意義。

值得一提的是,此前「AI 換臉」技術 DeepFake,其核心技術也是來自 Ian Goodfellow 的發明。

目前尚不清楚 Ian Goodfellow 會給蘋果帶來哪些變化,考慮其 3 月份剛剛入職,而且 Ian Goodfellow 主要關注在研究領域,因此可以斷定,短期內,Ian Goodfellow 的研究不會直接落地到蘋果的產品裡。

但 AI 之於蘋果,已然變得越來越重要了。

如果以當下的視角去看,蘋果的 AI 探索始於收購 Siri。

作為喬布斯生前收購的最後一家公司,Siri 肩負著喬布斯對於未來交互模式的遠見思考。

從Siri閉門造車到開放機器學習,詳解蘋果 AI 實踐的三個階段

正如上圖所示,「互聯網女皇」 Mary Meeker 在人機交互歷史回顧中中指出,幾百萬年前,人類從聲音的交互開始,而文字的發明,則讓交互從聲音轉入文本階段,於是出現了各種與文本打交道的交互工具。即便如此,人類交流中的 90% 依然還是通過聲音來完成,這種更自然也更原始的交互模式在過去半個世紀裡並未得到突破性的進展。

自動語音識別(Automatic Speech Recognition ,簡稱ASR)是一種機器可識別人類說話單詞的能力。很長一段時間裡,ASR 在準確度上都無法與人類識別相媲美,而在 2010 年,ASR 在識別準確度上迎來一個拐點。

從Siri閉門造車到開放機器學習,詳解蘋果 AI 實踐的三個階段

從上圖的變化可以看出,2010—2015的五年時間,ASR 準確度得到大幅提升,這種變化超過了過去 30 年到 40 年的變化。事實上,我們現在已經接近一個時刻:機器對於語音的識別能力即將超過人類。

喬布斯看到了基於聲音的交互才是人類天性的體現,而技術進步則幫助人類重新回到了最原始的聲音交互時代。

Siri 在這種情況下成為蘋果佈局聲音交互的重要產品,當時,喬布斯曾被問到收購 Siri 是否想與Google 競爭搜索業務,喬布斯給出的答案很明確:Siri 不是搜索產品,他們要做人工智能。(他原話是「 [Siri is] not a search company. They're an AI company. We have no plans to go into the search business. We don't care about it -- other people do it well.」)

只可惜,喬布斯並未看到搭載 Siri 的第一部 iPhone—— iPhone 4S 的發佈儀式。彼時, Siri 給世界帶來的驚喜隨著一次次的惡作劇般的調侃趨於平淡,人們突然發現,Siri 幾乎沒有任何用處。她(他/它)常常答非所問,又經常無故跳出(不小心長按 home 健)…..

如喬布斯當年所言,語音交互正在成為人工智能最有可能爆發的領域。看看市面上的科技公司們,亞馬遜、微軟以及Google、Facebook,無一不在這個領域發力。

但蘋果顯然缺乏應對之策。自喬布斯逝世後,原來的 Siri 團隊核心成員幾乎都離開了蘋果,包括Siri早期開發者的Dag Kittlaus 和Adam Cheyer 等人又創立了一家 Viv 的公司,其產品可以理解為新一代的 Siri。

2018 年 3月, 付費科技媒體 The Information 發表了一篇長文,詳細展示了過去幾年 Siri 是如何被蘋果玩壞的。

文章提到了兩個對立的原因,一方面是負責 Siri 的蘋果老員工 Richard Williamson 被指責沒有創新意識;另一方面 Richard Williamson 則不斷強調 Siri 是一個不成熟的產品,自己作為維護者無法承擔其如此大的責任,或者換句話說,這個鍋應該由 Siri 創始團隊來背。

文章同時還指出,蘋果在 2013、2015 年做了兩筆與 Siri 相關的收購,希望將兩家創業公司 Topsy 的搜索能力以及 VocallQ 的自然語言理解能力整合到 Siri 裡,但結果並不盡如人意。Information 獲取的消息源稱,Topsy 團隊的成員表示不願與 Siri 團隊合作,原因是 Siri 的技術陳舊且無法滿足當下的用戶需求。

隨後蘋果內部做了一個「艱難」的決定:放棄對 Siri 的修修補補,重寫 Siri。這也是一個艱鉅的任務,此時的 Siri,已經成為數以億計的蘋果設備裡的重要產品,頗具諷刺的是,或許是因為 Siri 太傻,或許 Siri 的打開率太低,重寫 Siri 的過程並沒有在如此龐大的用戶群體掀起多大波瀾。

撇開這些無法確定的事實來看,Siri 無法變得聰明也是蘋果內部的必然結果。

首先,缺乏人才。有媒體盤點過 2015 年蘋果的挖人名單:

  • 2015年年初,前蘇黎世聯邦理工學院自動系統實驗室副主管Paul Furgale加入蘋果;
  • 7月,前意大利經典汽車廠商菲亞特克萊斯勒集團質檢總監Doug Betts加入蘋果。
  • 8月,大眾前工程師 Megan McClain、特拉斯前工程經理Hal Ockerse、前高級工程師Jamie Carlson加入蘋果。
  • 9月,芯片製造商Nvidia公司人工智能專家、深度學習軟件主管Jonathan Cohen 加入蘋果;
  • 10月,電動摩托廠商Mission Motors申請破產,旗下一部分優秀工程師投奔到了蘋果旗下;

上述幾位除了Jonathan Cohen 之外都與蘋果汽車項目相關(當然這個項目如今已經被大量裁員)。直到 2015 年 9 月,蘋果才罕見發佈招聘廣告,大規模招募人工智能和機器學習方面的人才。

其次,蘋果公司文化強調的保密原則,根本不適用於機器學習領域。這也可以解釋,為何當 Google、Facebook 等公司的機器學習工程師發佈論文,而難見蘋果公司的原因。

這不禁讓人發問:蘋果在 AI 領域到底是毫無作為還是隱藏實力?

如果將時鐘撥回到三年前的 WWDC ,蘋果的 AI 探險之路也是從這個時候開始的。與歷年 WWDC 類似,這一次同樣發佈了全新的 iOS——iOS 10。

iOS 10 裡,蘋果官方的照片應用可以自動識別人臉、物體,並能夠相冊裡的人物自動分類,新加入的「回憶」,則可以通過對照片的位置信息、人臉照片信息、場景信息等聚集在一起,還支持插入音樂。

蘋果將上述功能加入到一臺運行 iOS 10 的iPhone中實屬不易,要知道類似的功能在 Google 與微軟那裡,都是通過雲端數據處理後的返回結果。

蘋果之所以採用這種方法既有歷史原因,也有諸多現實考量。

歷史上看,喬布斯時代的蘋果對人機交互有著異常的堅持,比如 iOS 曾經異常的簡潔性——這也意味著毫無選擇性的交互方式。喬布斯也曾表示,如果他來做一款DVD,那麼唯一的按鈕就是「燒錄」,其他都可以捨棄。正是這樣對於簡潔性的追求,使得蘋果的產品線長期以來在功能上的變化都極其剋制。

喬幫主已仙逝多年,iOS 自 iOS 7 開始在交互上開始複雜,但將人工智能納入到蘋果產品的過程依然十分緩慢,擺在蘋果面前的現實問題有兩個,其一,蘋果的雲服務不如 Google 和微軟,至今蘋果 iCloud 的服務還有一部分跑在亞馬遜 AWS 上,這也使得蘋果無法像Google 微軟那樣通過雲端強大的處理性能來處理照片分類、語音識別等。

其二,蘋果長期以來的價值觀就是對用戶隱私的保護。以虛擬助理來說,Siri 早在 2011 年就已經發布,但比起Google Now、微軟的 Cortana 來說,Siri 真的很不智能,原因就在於Siri對於用戶數據的收集非常少,而另外兩家公司的產品則有點「貪得無厭」,尤其是Google,默認的用戶協議裡,Google 可以收集用戶幾乎所有的數據為其所用。

但現實則是,時下流行的深度學習,迫切需要海量數據的「餵養」。這一年的 WWDC 上,蘋果也重新定義了所謂「大數據」,正式啟動蘋果的「Differential Privacy」,這個概念由微軟的C. Dwork 提出,其基本含義就是基於統計學原理,在一個群體層面收集數據,而非像FB、Google 那樣收集個體的數據。

由於蘋果的 iMessage、 FaceTime 早已部署了端到端的加密技術,因此能夠讓用戶數據以加密的方式上傳到蘋果的服務器,然後蘋果在對於這些群體層的數據進行分析和優化,從而改善用戶的體驗。

2016 年秋天,隨著新 iPhone 設備的發佈,iOS、macOS 等系統裡也開始集成「Differential Privacy」。而到了這年冬天,在一個行業 AI 大會的非開放會場,新晉上任的蘋果公司機器學習負責人 Russ Salakhutdinov 介紹了蘋果在自動駕駛、神經網絡、AI 芯片等領域的思考,這是幾乎是蘋果首次向外界(至少是學術界)透露自己的 AI 佈局。

也是在 12 月,Russ Salakhutdinov 還代表蘋果宣佈了另一項重大決定:蘋果將會允許自己的AI研發人員公佈自己的論文研究成果!

從Siri閉門造車到開放機器學習,詳解蘋果 AI 實踐的三個階段

緊接著,蘋果在 2017 年 7 月正式發佈了機器學習博客,利用這個平臺發佈一系列圍繞 AI 的研究進展,其第一篇博客談如何基於小規模數據訓練,實現算法的提升,其中也提及使用 GANs 的思路。

2017 年可以說是蘋果正式向外界展示 AI 能力的開始。這一年的 WWDC 大會上,蘋果向世界展示了自己對於 AI 之於手機的新思考:幫助開發者將 AI 能力帶入到智能手機裡,或者說,幫助開發者將 AI 帶入 iOS

這年的 WWDC 發佈的 Core ML 野心巨大。坦率來說,Core ML 並不是第一個將機器學習引入智能手機的開發平臺。2017 年的 5 月的 Google I/O 大會上,Google 發佈了面向移動設備的機器學習框架 TensorFlow Lite,使得開發者可以方便地在移動端部署 AI 應用。

但蘋果 CoreML 的出現,對於行業以及蘋果而言有三重意義。

其一,相比於其他的機器學習框架,CoreML 堅持了蘋果一貫以來的「設備智能」的原則,從訓練到部署,都在設備端展開,這充分展現了蘋果的「AI 價值觀」,也因為蘋果的巨大影響力,能夠引發整個機器學習行業對於數據、隱私的關注。

其二,對於開發者而言,蘋果的硬件生態依然擁有巨大的吸引力,基於 iOS 體系下的用戶基礎依然是一個金礦。上月的蘋果軟件服務發佈會上,有一組數字足夠震撼,如下圖所示,iOS 上的遊戲玩家已經突破 10 億。

從Siri閉門造車到開放機器學習,詳解蘋果 AI 實踐的三個階段

這樣的硬件生態和用戶基礎,也將吸引更多開發者加入到蘋果對於未來的應用體驗定義之中,從 AR 到 AI,App Store 上的應用生態也在變得越來越多元化。

其三,對於蘋果來說,正是 App Store 以及上面的開發者成就了蘋果當下無可爭議的「第一生態」,在當下 iPhone 銷量下滑、iPad 無法接力的現實語境,Core ML 也成為提升 iOS 應用體驗(討好消費者)、推動 iOS 應用開發創新(討好開發者)的重要產品。

從Siri閉門造車到開放機器學習,詳解蘋果 AI 實踐的三個階段

2018 年的 WWDC 上,Core ML 進入 2.0 時代,提供了更小、更快也給更容易定製的機器學習模型,同時也大幅提升了訓練、部署速度。可以預見,兩個月之後的 WWDC 還會有更多的升級。

事實上,2018 年蘋果在 AI 領域最大突破則是將 John Giannandrea 招致麾下。這位在 Google 工作 8 年,先後負責機器智能、搜索團隊的大拿的到來,標誌著蘋果開始認真做起了 AI。

根據 TechCrunch 的報道,2018 年 7 月,蘋果內部對於 AI 團隊做了調整。將 Core ML 和 Siri 團隊合併,由 John Giannandrea 統一領導,並直接向庫克彙報。

這次人員調整也讓這一年 WWDC 上推出的 Siri Shortcuts 具有更令人看好的前景。基於 Siri Shortcuts,第三方應用開發者可以將快速將自己應用的某些功能「輸送」給 Siri,實現最快的語言喚醒。

而到了 2018 年 12 月,蘋果官方宣佈 John Giannandrea 晉升為管理團隊成員,其職位名稱為「機器學習和 AI 戰略高級副總裁」。

從Siri閉門造車到開放機器學習,詳解蘋果 AI 實踐的三個階段

在蘋果官方新聞稿裡,對 John Giannandrea 的工作範圍做了這樣的介紹:

Giannandrea oversees the strategy for AI and Machine Learning across all Apple products and services, as well as the development of Core ML and Siri technologies. His team's focus on advancing and tightly integrating machine learning into Apple products is delivering more personal, intelligent and natural interactions for customers while protecting user privacy. ......

Giannandrea’s team is also helping to enhance the developer experience with tools including Core ML and Create ML, making it easier and faster to integrate machine learning into apps.

通過上面的架構圖以及對 John Giannandrea 職位範圍的整理,可以清晰地看到蘋果對於 AI 的重視程度,至此,AI 也成為蘋果體系內與零售、服務、軟件、設計並列的核心業務。而 John Giannandrea 在學術界以及工業屆的號召力,也將進一步帶動蘋果 AI 領域的人才積累和研究突破,如今,隨著 Ian Goodfellow 的到來,蘋果在 AI 領域的話語權也越來越大。

那麼問題來了,蘋果會如何定義手機 AI?

過去五年,正是人工智能再一次成為主流技術潮流的五年,同時也是智能手機由盛而衰的五年,而智能手機於人工智能的結合,也是近兩年來的新潮流。

正如我在今年初的一期會員通訊裡所言,「包括蘋果在內的智能手機行業,必須面對一個殘酷的事實:儘管所有人都知道 AI 會給手機帶來變革,但沒有人知道到底從何處入手,以及如何去做。

如果結合蘋果以及其他公司的實踐,或許我可以提供幾個值得關注的線索。

第一,操作系統。Google 與蘋果,作為全球兩大移動 OS 提供商,肩負著如何將 AI 植入 Android 和 iOS的重任,好在 5 月、6 月的兩場開發者大會將讓我們見識這兩家公司的具體策略;

第二,語音。去年亮相的 Google Duplex 已經擴大到更多設備,這是語音技術的一次巨大突破,相比於更漂亮的實驗室數據,基於實際應用場景的 Duplex 或許並不完美,但卻提供了語音技術應用的新場景。

從Siri閉門造車到開放機器學習,詳解蘋果 AI 實踐的三個階段

與此同時,蘋果的 Siri Shortcuts 的確在一定程度上提高了 iOS 的自動化能力,但還沒有完全激發出開發者、消費者的使用熱情,隨著蘋果在越來越多設備里加入可隨時喚醒的 Siri,Siri Shortcuts 可以提供更多應用空間。

第三,圖像/攝像頭。2018 年,Google 和華為分別從軟件(計算機視覺)、硬件(面積更大的傳感器)定義了兩個不同的手機拍照路線,儘管蘋果也在 2018 年用智能 HDR 予以還擊,但在夜景上還是完敗。

這也讓外界好奇 2019 年 iPhone 的拍照能力是否可以實現新的突破,不管是硬件還是軟件,蘋果的確需要拿出一個好相機,挽回正在丟失的用戶。(完)


分享到:


相關文章: