AI = “Automated Inspiration(靈感自動化)”

全文共4581字,預計學習時長

14分鐘


AI = “Automated Inspiration(靈感自動化)”


在19世紀,醫生可能會讓情緒波動的病人服用水銀,讓哮喘病患者吃砒霜,甚至可能不會在手術前洗手。當然,他們並沒有什麼惡意——他們只是不知道怎麼做才更好。


這些早期的醫生在他們的筆記本上潦草地寫下了有價值的數據,但是每個醫生不過都是大拼圖中的一個部分。沒有能夠分享和分析信息的現代工具,也沒有能夠理解這些數據的科學,因此就沒有什麼能阻止迷信取代科學與事實。


從那時起,人類在技術上已經取得了長足的進步,但是今天機器學習(ML)和人工智能(AI)的繁榮並不是與過去的決裂。這是人類本能的延續,使人類可以理解周圍的世界,從而做出更明智的決策。其實,我們只是擁有了更先進的技術。


如今,人工智能的繁榮並不是與過去的決裂,只是擁有了更先進的技術。


古往今來,人們可以把這種模式看作是數據集的革命,而不是數據點的革命。其中的差別是顯著的,因為是數據集幫助塑造了現代世界。


AI = “Automated Inspiration(靈感自動化)”

文字的發明


早至5000多年前,蘇美爾(現伊拉克地區)的抄寫員就開始用筆在粘土板上書寫文字。就是在那個時候,第一個書寫系統得以發明,隨之出現的還有第一種數據存儲和共享技術。


AI = “Automated Inspiration(靈感自動化)”

世界上第一個數據存儲和共享技術的例子——蘇美爾人的泥板文書。這種書寫方式不僅數據容量很小,而且檢索起來異常困難。


如果你感慨於人工智能優於人類的能力,那就想想文具所帶來的超常記憶力。雖然現在人們常常會認為寫字沒什麼稀奇的,但是可靠的數據集存儲能力意味著人們邁向更高智能之路的第一步。


如果你感慨於人工智能優於人類的能力,那就想想文具帶來的超常記憶力。


不幸的是,在各種電子產品真正出現以前,如果先人們要從泥板書寫等諸如此類的早期書寫系統中去檢索信息,那會是項極其費力的工作。比如,計算字數並不是一件輕而易舉的事情,因為人們必須在大腦中對每個字進行處理。因此,早期的數據分析非常費時間,所以當時的人們也只會記錄那些相對重要的事情。在某個王國,雖然官方可能會分析其黃金稅收,但只有“勇者”才敢對此做出自己理性的分析。比如在醫學方面,數千年的傳統只是鼓勵人們順其自然。


AI = “Automated Inspiration(靈感自動化)”

分析學的興起


AI = “Automated Inspiration(靈感自動化)”

約翰·斯諾繪製的地圖,顯示了1854年倫敦爆發的霍亂病例群。


幸運的是,總有人立於歷史的潮頭。例如,在1858年倫敦霍亂爆發期間,約翰·斯諾繪製的死亡情況地圖就啟發了當時的醫學界人士,讓他們重新考慮這種疾病的來源,不再迷信地認為是瘴氣(一種有毒氣體)引起的,而是開始仔細觀察飲用水。


AI = “Automated Inspiration(靈感自動化)”

弗羅倫斯·南丁格爾,分析師(1820-1910)


大家可能都知道“提燈女神”弗洛倫斯·南丁格爾是一名有富有同情心的護士,但鮮為人知的是,她同時也是一名分析學先驅。在克里米亞戰爭期間,南丁格爾發明的信息圖表拯救了許多人的生命。通過這種圖表,人們發現醫院糟糕的衛生狀況是致死的主要原因,並因此要求政府重視衛生設施。


AI = “Automated Inspiration(靈感自動化)”

上圖所示為弗洛倫斯·南丁格爾發明的極區圖,顯示了可預防疾病(藍色)致死人數,因傷(紅色)致死人數,以及其他原因(黑色)導致的死亡人數。


當信息的價值在越來越多的領域得到體現時,單一數據集的時代也隨之開啟,而這也使得“計算師(Computer)”職業得以出現。最初的“Computer”並不是當今家喻戶曉的電腦,而是一種人類職業,其從業者手動執行計算並處理數據以獲取其價值。


AI = “Automated Inspiration(靈感自動化)”

此照片拍攝於20世紀50年代,圖中所有人都是職業“計算師”,工作於超音速壓力隧道。


數據的美妙之處就在於,它能讓人們從中產生深刻的見解。如同弗洛倫斯·南丁格爾和約翰·斯諾一樣,通過分析信息,人們可以受到啟發並提出新的問題。簡而言之,分析學就是通過分析探索來提出假設,創建模型。


AI = “Automated Inspiration(靈感自動化)”

分析學的缺點


不幸的是,如果沒有第二個數據集,人們就無法得知由此產生的觀點是否站得住腳。除了某些特定的數據點之外,在其它情況下該觀點還行之有效嗎?無從得知。歡迎來到20世紀的分析學世界。


AI = “Automated Inspiration(靈感自動化)”

該圖示由保羅·J繪製而成,原用於筆者一篇關於數據驅動決策中的確認偏差的文章。

通常人們的研究或發現並不是萬無一失的,因為各種無意識的偏見(如 確認偏誤)無法避免——當人們看到最明顯的點時,常常會因此而錯過其它同樣重要的地方。人們也許會認為已經看到了所有需要看的東西,但實際上才剛剛觸及皮毛。由於人類的注意力和記憶力遠沒有想象中的那麼好,所以探索性數據集常常是一種狒狒陷阱 (baboon trap )。


分析學是關於靈感和探索的,但是超越數據的觀點不應該被認真對待。


如果要在實驗數據之外檢驗某觀點是否依舊可行,那麼就不能再使用原先的數據。例如,有人曾在薯片中隱約看見了貓王的臉。雖然這個薯片可能看起來像貓王,但並不能以此斷定大多數薯片皆是如此。要知道某觀點是否站得住腳,就不僅僅要看那些激發觀點的例子,而且還必須在從未見過的新薯片上測試它們。


AI = “Automated Inspiration(靈感自動化)”

從數據集到數據分割


在20世紀早期,人們希望能夠在不確定的情況下做出更好的決定,這一願望導致了一個平行領域的誕生:統計學。如果一個現象也適用於除當前數據集之外的數據集,統計學家會幫助測試這種行為是否明智。


AI = “Automated Inspiration(靈感自動化)”

“統計學之父”羅納德·費希爾 (1890–1962)


一個著名的例子來自羅納德·費希爾,他編撰了世界上第一本統計學教科書。當年,費希爾的朋友聲稱自己能嚐出在茶中是先加的牛奶還是水,為了回應這一說法,費希爾做出了一個假設並進行了相關實驗。費希爾本希望能證明朋友是錯的,但是數據得出的結論卻與預期相反。


統計的嚴格性要求人們在採取行動之前先發號施令;分析學則更像是一場事後諸葛的遊戲。


AI = “Automated Inspiration(靈感自動化)”

致命弱點


分析學和統計學有一個主要的致命弱點:如果在假設生成和假設檢驗中使用相同的數據點,那麼就是在作弊。如果選擇用數據來代替靈感,則必須從別處獲得靈感。在大多數情況下,靈感來源於努力思考。換句話說,坐在雜物間裡沉思,仔細地構思統計問題,闡明所有的假設,然後就有機會測試自己對世界的心智模式是否真的成立。


不幸的是,要用數學的方式詳細說明整個直覺,並對其進行測試,需要進行艱苦訓練。你需要集中精力。但至少現在有了一個合理的方法來檢查自己的印象是否值得付諸行動。歡迎來到20世紀後期的 統計學世界。


AI = “Automated Inspiration(靈感自動化)”

數據集革命


統計的嚴格性要求人們在採取行動之前先發號施令;分析學則更像是一場事後諸葛的遊戲。這些學科幾乎是完全不兼容的。直到下一次重大革命——數據分割的出現,才改變了這一切。


AI = “Automated Inspiration(靈感自動化)”


數據分割是一個簡單的想法,但對像筆者這樣的數據科學家來說,這堪稱最深刻的想法之一。如果只有一個數據集,必須在分析(不可測試的靈感)和統計(嚴格的結論)之間進行選擇。黑客嗎?把數據集分成兩部分,這樣就可以魚與熊掌兼得了!


雙數據集時代用兩種不同類型的數據專家之間的協同工作取代了分析-統計 的緊張關係。分析師使用一個數據集來構建問題,然後統計學家使用另一個數據集來給出嚴格的答案。


把你的數據集分成兩部分,這樣就可以魚與熊掌兼得了!


這種奢侈品有著沉重的價格標籤:數量。如果你一直在努力為數據集收集足夠的信息,那麼分割說起來容易做起來難。雙數據集時代是一種非常前沿的發展,它與更好的處理硬件、更低的存儲成本以及通過互聯網共享收集信息的能力齊頭並進。


事實上,迎來雙數據集時代的技術革新迅速進入了下一個階段,一個自動化靈感的三數據集時代。還有一個更熟悉的詞:機器學習。


AI = “Automated Inspiration(靈感自動化)”

作為一次性命題的測試


有沒有想過為什麼統計學家在涉及到嚴謹的數據時會變得焦慮不安?在計劃問題之前查看數據集會破壞其作為統計嚴謹性來源的純粹性。如果你問錯了問題,或者問得很愚蠢,那就沒有第二次機會了。


即使你正在考慮進行多重比較校正——即允許每個數據集有多個假設的統計咒語——程序也只有在提前計劃好所有假設的情況下才有效。用測試數據集檢驗20個問題是不被允許的,反覆放大一個閃亮的結果,還假裝事不關己。


測試仍然是一個一次性的命題——不允許迭代地向解決方案爬行。


為了使嚴格的方法有效,必須提前規劃,如果問題不止一個,使用一些“充滿歉意”的數學(計劃好多個假設),然後同時執行一次測試。不能多次打開該測試數據集。


AI = “Automated Inspiration(靈感自動化)”

第三個數據集的奢華


既然只有一次機會,怎麼知道分析的哪個“洞察力”最值得測試呢?如果有第三個數據集,就可以用它來激發測試靈感。這種篩選過程稱為驗證,這是機器學習的核心。


驗證是機器學習的核心——它能自動激發靈感。


一旦可以自由地把所有的東西扔向驗證牆,看看有什麼東西卡住了,每個人都可能想出一個解決方案:經驗豐富的分析師、實習生,甚至是與業務問題無關的算法。無論哪種解決方案在驗證中效果最好,都會成為合適的統計測試的候選方案。這個過程就強化了自動靈感的能力。

AI = “Automated Inspiration(靈感自動化)”


AI = “Automated Inspiration(靈感自動化)”

AI = Automated inspiration(靈感自動化)


這就是為什麼機器學習是數據集的革命,而不僅僅是數據。這取決於是否有足夠的數據進行三方拆分。


人工智能(AI)在這幅圖中是什麼位置呢?使用深度神經網絡的機器學習在專業領域被稱為深度學習,但它還有一個固定的暱稱:人工智能。儘管人工智能曾經有不同的含義,但今天人們通常把它等同於深度學習。


在完成許多複雜任務時,深度學習網絡的表現常常優於低級的機器學習算法,因而廣受關注。然而,它們通常需要更多的訓練數據,並且處理要求超出了普通的筆記本電腦。這就是為什麼現代人工智能的崛起是一個雲的故事;雲用戶可以租用別人的數據中心,而不是致力於構建自己的深度學習平臺,從而讓人工智能成為先試後買的東西。


現代人工智能的崛起是一個雲的故事,因為雲讓人工智能成為一個先試後買的東西。


有了這個拼圖,就有了專業的完整補充:機器學習/人工智能、分析學和統計學。涵蓋所有這些的涵蓋性術語叫做數據科學,即使數據有用的學科。


AI = “Automated Inspiration(靈感自動化)”

靈感的未來


現代數據科學是三個數據集時代的產物,但許多行業通常會產生過多的數據。那麼,未來有可能會出現四個數據集嗎?


如果你剛剛訓練的模型得到了一個較低的驗證分數,那麼下一步該怎麼辦?如果像大多數人一樣,你會立即想要知道為什麼!不幸的是,沒有數據集可以問。你可能想在驗證數據集中進行搜索,但不幸的是,調試破壞了有效篩選模型的能力。


通過對驗證數據集進行分析,可以有效地將三個數據集變成兩個。你沒有尋求幫助,而是不知不覺地倒退了一個時代!


AI = “Automated Inspiration(靈感自動化)”


解決方案並非是已使用的三個數據集。為了解鎖更智能的訓練迭代和超參數調試,你會想要加入到前沿:四個數據集的時代。


最前沿的技術是用四種數據分割來助力發展。


如果其他三個數據集給人們帶來了靈感、迭代和嚴格的測試,那麼第四個數據集則會加速這一過程,通過高級分析技術縮短人工智能開發週期,這些技術旨在為每一輪嘗試什麼方法提供線索。通過採用四種數據分割,人類將能夠共享數據帶來的福利!

未來可期。

(改編自作者最初發表在福布斯的人工智能文章。)

AI = “Automated Inspiration(靈感自動化)”

我們一起分享AI學習與發展的乾貨


分享到:


相關文章: