AI數據挖掘有漏洞!女性名稱比男性名稱的颶風,真的更有殺傷力?

導語:曾經,《美國科學院院報》發表了一篇題為“女性名稱的颶風比男性名稱的颶風更有殺傷力”的文章。雖然題目如此,但是作者的論點並不是去證明題目所說,而是認為“人們不把女性名稱的颶風當回事,於是沒有做好完全的準備,這才導致更多人喪命。乍一看,似乎並沒有問題,但是仔細琢磨,漏洞百出!

畢竟,著名的期刊上時常會有一些非常“蹩腳”的研究!

為什麼說這項依靠數據得出來的研究漏洞百出?

AI數據挖掘有漏洞!女性名稱比男性名稱的颶風,真的更有殺傷力?

颶風

一方面,研究數據本身存在問題。該項研究數據包含1979年之前的颶風數據,而1979年之前都是以女性名稱命名。而且研究數據忽略了幾次致命的颶風,像2009年的“比爾”颶風。還有,女性化、男性化詞的界定也不完美,比如大眾普遍認為是男女皆宜的詞“桑迪”,在此研究中也被界定成非常女性的名稱。

另一方面,研究的結論不符合常理。是女性名字還是男性名字真的和颶風本身威力有關係嗎?合乎常理的解釋應該是人們的重視程度對死亡人數起到關鍵作用,而這種合乎常理的理論似乎又沒有什麼研究的必要!類似這種“先數據、後理論”的研究不在少數,比如“喝咖啡會導致胰臟癌”、“患者能夠被遙遠的醫者的正能量治癒”等。

從數據挖掘的角度,統計學研究方法看似非常嚴謹,但是得出的理論總有一些不合情理的地方。難道是被廣泛運用AI大數據挖掘技術本身出了問題,還是這種AI大數據挖掘的方法會欺騙我們?

要想回答這個問題,我們需要先從德州神槍手謬誤說起!

什麼是德州神槍手謬誤

首先,我們需要給大家解釋一下這個“謬誤”二字。人類在認知的過程中會產生正確和錯誤兩種結果,前者是真理,後者則是謬誤!換句話說,正是因為這些“謬誤”,才讓我們的認知得到進一步提升。那麼,什麼是德洲神槍手謬誤?

AI數據挖掘有漏洞!女性名稱比男性名稱的颶風,真的更有殺傷力?

神槍手

曾經有一個自稱是神槍手得德州人,在整面牆上佈滿了靶子,然後拿著槍朝著牆面射去。毫無疑問,他肯定能夠射中其中一個,但是這根本說明不了問題。之後,德州人開始炫耀自己的槍法了得,卻隻字不談其餘沒有射中的靶子。

這就好比我們在研究的時候,驗證了成千上百個數據,卻最終只報告統計學意義上最有說服力的結果,而對所有失敗的結果卻守口如瓶。最終,什麼都證明不了,只要進行足夠多的測試,就一定能夠找到支持的證據。

這種做法也類似於,我們把子彈都打到牆上,然後圍繞彈孔畫個靶子。同樣不能說明問題,因為總能找到一個合適的彈孔圈。這就好比,我們在做研究的時候,挖掘數據之間的規律來構建模型,然後再創造出一個新的理論。

上述是德州神槍手謬誤的一種表達,還有很多表達方式,比如數據挖掘、數據撈取、數據探測和P值篡改。P值篡改表示如實驗偶然出現的概率(P值)小,則被認為是具有統計學意義。如今,在期刊上以這種方式來發表研究成果,更是加劇了這種情況。一些研究人員容易陷入德州神槍手謬誤,從而得到具有統計意義上的結論。

AI數據挖掘有漏洞!女性名稱比男性名稱的颶風,真的更有殺傷力?

諾貝爾獲獎者者查理德·費曼曾經讓自己在加州理工大學的學生計算,如果他走出教室,在停車場看到第一輛車的車牌號為8NSR26的概率有多大。學生假設每個數字和字母的出現是獨立,得出的概率小於1700萬分之一。等學生計算完畢後,費曼說正確答案為1,因為他在來的路上就已經看到了這輛車。

所以說,出現概率很低的事發生了,那它發生的概率就肯定不是微乎其微!

因此,諾貝爾獲獎者羅納德·科斯表示,只要“拷問”數據的時間過長,數據也會“屈打成招”!

兩個”搞笑諾貝爾獎“案例

德州神槍手謬誤看起來似乎有些不可思議,這種做法顯然存在很大的問題。但是,陷入到“德州神槍手謬誤”的人還真不在少數,這裡給大家舉兩個“搞笑諾貝爾獎”的案例。該獎每年在哈佛大學頒發一次,目的是選出“初看令人發笑,過後發人深省”的學術成果。

AI數據挖掘有漏洞!女性名稱比男性名稱的颶風,真的更有殺傷力?

搞笑諾貝爾獎

大家或許不知道標準的神經科學實驗是怎麼樣?這裡我給大家簡單科普一下,標準的神經科學實驗是將志願者放置在磁共振成像機裡,然後觀看不同圖像並回答有關圖像的問題。並通過fMRI測試方法來測量含氧與脫氧血流經過大腦時的磁信號阻斷情況。

測試結束後,通過觀察3D數據來查看大腦的那個部位受到了圖像和問題的刺激。但是,fMRI測試具有噪聲源,包括來自周圍環境中的磁信號和大腦不同部位脂肪組織密度的變化。而且,成像體素有時會漏記大腦活動,有時又顯示出沒有大腦活動。

達特茅斯大學研究生克雷格·貝內特進行了一項特殊的實驗,通過向三文魚展示圖片並提問,之後用磁共振成像機研究三文魚大腦的活動。最後,通過精巧複雜的統計學分析得出了相應的模型。一切看上去是那樣正常,然而,貝內特買的三文魚是死魚!

AI數據挖掘有漏洞!女性名稱比男性名稱的颶風,真的更有殺傷力?

這項關於死三文魚的研究引發了很多人的關注,甚至最後被評為“搞笑諾貝爾獎”。這項研究可以說是通過大數據進行數據建模的一個絕佳類比。這項研究的過程非常精密,唯一沒有記錄的就是三文魚是死的。AI大數據挖掘比這研究的數據量多得多,自然也會找到很多“荒誕至極”的關聯性。

無獨有偶,紐約大學和倫敦大學學院物理學教授艾倫·索卡爾,向被譽為“站在文化理論最前沿”的《社會文本》雜誌投了一篇文章。這其實是一場惡作劇,索卡爾故意寫出一篇莫名其妙的文章,就是想看看是否會被髮表,結果還真發表了!

該雜誌編輯評上了“搞笑諾貝爾獎”,《社會文本》雜誌編輯的頒獎詞為“急切發表自己看不懂、作者承認胡編亂造且並非真實存在的研究”。之後,康奈爾大學的研究生羅布·維勒做了一項實驗,要求參與者基於論點和文章質量來評價索卡爾這篇莫名其妙的文章。其中,一半人被告知是哈佛大學的教授作品,另一半則被告知是一個康奈爾大學的大二學生。

結果很容易才想到,認為是哈佛大學教授作品的評分更高!

看到這裡,大家應該能夠明白AI大數據挖掘其實並沒有錯,問題在哪?問題出在我們自己身上!

AI大數據挖掘的問題出在哪?

我們會被這些研究欺騙的一個重要原因,是因為我們相信有人說了我們無法理解的事。比如,一些專家說了一些我們無法理解的事,是因為我們自己不夠“聰明”而理解不了專家在說什麼。換句話說,AI大數據挖掘得出來的結論是我們目前無法理解計算機表達出來的意思。

AI數據挖掘有漏洞!女性名稱比男性名稱的颶風,真的更有殺傷力?

吉姆·柯林曾經用5年的時間確定了整個股市中表現最好的11個企業,並通過數據挖掘的方式,得出這個11個企業有區別於其他同行公司的五大明顯特徵。吉姆·柯林也表示,我們的結論是直接通過數據推算得來,從而創造出一個新的理論。

但是,我們都知道,無論是最好還是最差的企業都會找到共同點。通過數據得出理論並非是一件難事,難的是這些新的理論能夠預測未來事物的走向,需要通過時間來檢驗。換句話說,吉姆·柯林的理論未來是否能夠預測哪些公司能夠成功。不幸的是,吉姆·柯林選中的這11個企業最終不是走向平平,就是走向崩潰。

選擇成功的企業,然後找出共同點,似乎有點事後諸葛亮的感覺,其意義又有多大呢?吉姆·柯林的理論的確很客觀、不是憑空捏造,但是卻是被數據牽著鼻子走。

因此,AI大數據挖掘的問題在於我們過於著急從數據中衍生出新的理論,而沒有考慮這些理論背後是否真的有效、是否真的合理。通過大量數據,我們肯定能夠找到某一個地方的天氣和股市之間的關係,那麼,我們會根據天氣來買股票嗎?很顯然是不符合情理。

AI數據挖掘有漏洞!女性名稱比男性名稱的颶風,真的更有殺傷力?

目前挖掘大數據的人工智能智能算法存在漏洞的原因,在於計算機不會理解事情的本質,而合乎情理的模型往往比只依靠數據的模型要來得有效。因為,計算機只懂得如何拷問數據。

之前,計算能力不強的時候,科學研究都是通過手算數據來不斷矯正和驗證猜想和假設,最終得出普世的理論,如萬有引力、牛頓運動定律、孟德爾遺傳規律等。如今計算能力越來越發達,我們不見得能夠做得越來越好。

AI大數據挖掘的過程過於著急,而忽略了基本假設和猜想,並且也等不來時間的檢驗。自然,看似不合理的德州神槍手謬誤,其實我們都深陷其中!

結論

本文從《美國科學院院報》中發表了一篇題為“女性名稱的颶風比男性名稱的颶風更有殺傷力”的文章出發,引出對“先數據後理論”得出一些“匪夷所思”的理論的思考。

這些“匪夷所思”的理論,從數據挖掘的角度來說,看似很正確,實則研究人員陷入了“德州神槍手謬誤”的怪圈。德州神槍手謬誤簡單來說,就是“先射箭後畫靶”的因果謬誤。AI大數據挖掘存在的漏洞,其根源還是在於我們的認知並不能很好理解機器的表達!

研究新的理論往往是始於假設和猜想,而終於論證。但是完全依靠數據建立的模型,並不能很好貼合“合理性”,反而被數據牽著鼻子走。

因此,AI大數據分析的過程,我們不要著急立馬提出新的理論,而忽略必要的“合理性”假設。比如說,名稱和颶風怎麼會有這種統計意義上的強關係?這種研究又會有什麼意義?


分享到:


相關文章: