機器學習單挑數學界:最新算法仲裁數列之美(附論文)

機器學習單挑數學界:最新算法仲裁數列之美(附論文)

大數據文摘出品

編譯:胡笳、陳同學、錢天培

eiπ + 1 = 0 ,這是數學史上最美妙的公式之一 —— 歐拉公式。

它揭示了表面看似無關的數學領域之間的深層聯繫,是數學界的偉大奇觀之一。而這也指出了數學之美的另一個組成部分:數學模式必須在某種角度上是有趣的。

自古以來,發現這些有趣的模式一直是人類獨有的能力。而現在,機器也具備了這樣的能力!

近幾年來,機器已經成為強有力的模式識別工具。人臉識別、目標檢測、甚至水軍評論過濾,不一而足。

這不由引發了我們的思考:機器學習算法是否也可以識別出有趣優雅的數學模式呢?

來自IBM研究中心的 Chai Wah Wu 的最新研究結果告訴我們:這完全是可能的!

Wu實現了一種機器學習算法,該算法已經能夠學習並識別出數學結構中的某些優美之處,並被用於從完全隨機的序列中,過濾出那些有趣的數列。

機器學習單挑數學界:最新算法仲裁數列之美(附論文)

在大數據文摘後臺回覆“數列”可下載論文原文。

該研究的主要目的在於探究機器學習是否可以用於定義科學知識的本質屬性,即是否能夠辨別其是否具有優雅,簡潔或有趣性質。並通過對數列進行研究來探索這個問題。

該算法使用了一種名為整數序列在線大全的特殊數據庫,這個數據庫最初由數學家尼爾斯隆(Neil Sloane)於20世紀60年代創建,並於1996年掛到網上。

整數序列在線大全數據庫

http://oeis.org/

機器學習單挑數學界:最新算法仲裁數列之美(附論文)

40000個OEIS中的隨機序列

圖示為斜率 s與相關係數r的關係,採用RANSAC隨機抽樣一致算法作為迴歸求導函數,並且其slope值約為2。樣本中的正常數據(大約佔序列集的一半)符合Slope=2.001, intercept=0.003 ,相關係數r=0.999的迴歸曲線.

整數數列是指由根據某一規則排序後的一列數字。其中比較著名的數列包括素數——只能被自身和1整除的數;斐波那契數列,數列中的每項是前兩項的和;甚至還包括一些較為普通的數列,例如奇數序列或者以7開頭的素數序列。

實際上OEIS網站背後的數學家們撒開大網來尋找“有趣的”數列,由此網站中也收錄了很多具有純粹文化意義的數列。例如包含666序列的素數,其中666被稱之為惡魔數字。

這個數據庫甚至還錄入了包含數字667的素數序列。667這個數字被認為很重要,因為在傳真機普遍的時代,傳真機號碼通常就是人們的電話號碼加1。也就是說,如果他們的電話號碼是 123-4567,那他們的傳真號碼就是123-4568。按這種方式計算,667就是惡魔數字(666)的傳真號碼,因此這個數字具有一定的文化意義。

包含數字667的素數序列

http://oeis.org/A138563

如今,這個整數序列數據庫包含約30萬個序列,並且每天都有業餘愛好者和專業人士提交新的序列,其中很多序列暗含著新的有趣的數學問題。

Wu的任務就是找到一種方式來從隨機生成的序列中區分出這些“有趣的”序列。他的想法是通過找到作用於定義“有趣”序列的經驗規則,來將其從其他序列中區分開來。

機器學習單挑數學界:最新算法仲裁數列之美(附論文)

為了實現對這些數列分類計算,我們希望能夠找出一些固定的數列特徵,並將這些特徵應用到有限個數序列上進行分類計算。本文研究中採用了兩個經驗規則來進行計算。

Wu說:“經驗規則本身並不是數學定理,而是經由經驗觀察結果得出的規律。這些規律可能可以應用於很多自然或人造數據集”。例如電氣工程的摩爾定律和經濟學中的80/20帕累託原則。儘管這些“定律”的原因不得而知,他們卻真實存在。

本福德定律(Benford’s Law)也是一個廣泛適用很多數據集的經驗規則。本福德定律是1881年由加拿大數學家和天文學家西蒙·紐康伯(Simon Newcomb)發現的。紐康伯注意到對數表書籍中的前幾頁較後面的頁翻閱破損更嚴重,這表明以數字1開頭的對數更加常見。

這使他得出一個原理,即在任意一組數字中,更多的情況是以數字1為首出現,而不是以其他數字為首。20世紀30年代,富蘭克本福德(Frank Benford)也發現這一現象並推廣了這個原理。

本福德定律(Benford’s Law)指出:在一組數字中,較小數字排在首位的概率更高。更準確的定義是,以b為底,數字d出現在首位的概率為logb( (d+1)/ d )。在本文研究中採用以10為底的公式版本。

本福德定律適用性廣泛,例如電費數字,街道地址,股票價格數字等。這個定律的預測力很強,以至於它被用於識別財務賬戶中的欺詐行為。但它不適用於隨機序列,這點究竟為什麼至今還沒有弄清。

的確,本福德定律支配一些整數序列這一現象是十分神奇的。那麼它能多廣泛地應用於這些OEIS數據庫中的數列中呢?

為了弄清這一點,Wu計算了利用本福德定律預測從OEIS數據庫中隨機選擇的40,000個序列的首位數字分佈的結果。

事實證明本福德定律比預期的適用性更廣。Wu說:“結果表明,大部分但不是全部的序列,從某種程度上滿足本福德定律。”

他還發現,另一個經驗規則泰勒定理(Taylor’s Law)也普遍存在。

泰勒定理(Taylor’s Law)由萊昂納爾·泰勒(Lionel Taylor ) 於1961年提出。他指出在社會生態學中,均值µ和方差v似乎滿足冪律公式:v = TaµTb,其中Ta和Tb為正常數。泰勒定理被觀察出現在很多自然觀察的數據集和數列中,如素數序列,和二項式係數序列。

接下來就是更進一步的問題了:本福德定律和泰勒定理能否將隨機序列從OEIS的序列中區分出來?

為了弄清楚這個問題,Wu生成了40,000個隨機整數序列,並將這些隨機整數序列添加到從OEIS中選出的40,000個序列中去。然後他訓練機器學習算法,利用本福德定律和泰勒定理來識別OEIS序列,並將OEIS序列從隨機序列中區分出來。

在Wu從OEIS中隨機選擇的40,000條數列集中,每一個序列中至少包含990個數字。之所以採用990這個數字是因為,OEIS數據庫對大部分數列的個數限制為1000個,有些數列中的數字個數稍少於1000個,如“包含至少n個連續相同數字的最小序列”。

為了驗證上述問題,Wu從2000個隨機整數中生成了大約40,000個序列,並計算得到這些隨機序列的14個特徵。然後將這些隨機序列添加到上述OEIS序列中,組成80,000個隨機序列,並隨機抽取其中的70,000個作為訓練集,10,000個作為測試集。他採用隨機森林分類器,使用665作為樹的個數,以及其他通過超參優化得到的參數。

通過主成分分析處理後,得到從隨機序列中區分OEIS序列計算模型的性能指標如下:準確度(accuracy):0.999,精確度(precision):0.9984,召回率(recall):0.9996,F1值:0.9990。

這樣的結果令人非常欣喜。這表明了,通過自動化程序識別“有趣”數列是完全可行的。

通過機器學習來識別序列有一個顯而易見用途。OEIS背後運營的數學家們目前每年都需要處理大約10,000份序列的提交。所以這種自動化識別有趣序列的方法可能會很有幫助。

但是,這種方法有一些很明顯的侷限性。數學家們已經定義了很多有趣且重要的無窮大序列,並且這些序列難以計算。因此,OEIS數據庫中只涵蓋了數列中的一小部分數字。這些只有小部分的序列顯然不適合這種基於機器的分析。

機器學習單挑數學界:最新算法仲裁數列之美(附論文)

更普遍的一個問題是,是否通過這種方式能夠定義數學之美?正如Wu所問的:“機器學習能否識別科學知識的定性屬性;換句話說,機器是否能夠辨別出一項科學結果是否是優雅的,簡潔的,或是有趣的?”

這一願景可能並不完全是沒有希望。如果像上問題到的類似福德定律和泰勒定理這樣的經驗規則可以作為“有趣性”的指標,那麼或許這種算法至少在某種程度上,可以被認為是數學之美的仲裁者。

倘若機器學習真能到達這一境界,想必歐拉公式的命名者、也是歷史上最偉大的數學家之一——歐拉也會在棺材板裡驚訝地坐起來吧~

在大數據文摘後臺回覆“數列”可下載論文原文。

相關鏈接:

https://www.technologyreview.com/s/611272/this-algorithm-can-tell-which-number-sequences-a-human-will-find-interesting/


分享到:


相關文章: