「大數據時代」量化一切,數據的核心

記錄信息的能力是原始社會和先進社會的分界線之一。早期文明最古老的抽象工具就是基礎的計算以及長度和重量的計量。

公元前3000年,信息記錄在印度河流域、埃及和美索不達米亞平原地區就有了很大的發展,而日常的計量方法也大有改善。

美索不達米亞平原上書寫的發展促使了一種記錄生產和交易的精確方法的產生,這讓早期文明能夠計量並記載事實情況,並且為日後所用。

計量和記錄一起促成了數據的誕生,它們是數據化最早的根基。計量和記錄能夠再現人類活動。


「大數據時代」量化一切,數據的核心


比如通過記錄建築物的建築方式和原材料,我們就能再建同樣的建築,或進行實驗性的操作,比如通過改變一些方式保存其他部分而建造出新的建築物,然後再記錄這些新建築物。

交易情況一旦得到記錄,我們就可以知道一塊地豐收時稻穀的產量是多少、需要上繳多少政府稅收。計量和記錄為預測和計劃奠定了基礎,雖然這建立在假定明年的收成和今年一樣的基礎上。

有了記錄,交易雙方才會知道他們賒賬的情況,而如果沒有這些憑證的支持,欠債的一方則完全可以不用還錢。

幾百年來,計量從長度和重量不斷擴展到了面積、體積和時間。公元前的最後一個千年,西方的計量方法已經基本準備就緒,但是還是有著比較嚴重的缺陷。早期文明的計量方法不太適合計算,哪怕是比較簡單的計算。

比如羅馬數字的計算系統就不適合數字計算,因為它沒有一個以10為底的記數制或者說是十進制,所以大數目的乘除就算是專家都不知道該怎麼算,而簡單的乘除對一般人來說也不容易。

大約公元1世紀的時候,印度發明了一種自己的數字系統。它傳播到了波斯,並在那裡得到改善,而後傳入阿拉伯國家,得到了極大的改進。這也就是今天使用的阿拉伯數字的前身。

十字軍東征給當地人民帶來了徹頭徹尾的災難,但同時也把西歐文明帶到了地中海東部,而其中最重要的引入就是阿拉伯數字。公元1000年,教皇西爾維斯特二世開始倡導使用阿拉伯數字。12世紀,介紹阿拉伯數字的書籍被翻譯成拉丁文,傳播到了整個歐洲地區。這也就開啟了算術的騰飛。

早在阿拉伯數字傳播到歐洲之前,計數板的使用就已經改善了算術。計數板就是在光滑的托盤上放上代幣來表示數量,人們通過移動代幣到某個區域進行加減。

但是,這種計數板有著嚴重的缺陷,即過大和過小的計算無法同時進行。最主要的缺陷還在於,這些計數板上的數字變化很快,不小心的碰撞或者是擺錯一位都會導致完全錯誤的結果。而且,即便計數板勉強可以進行計算,它也不適合用來記錄。

因為一旦需要將數字記錄在計數板以外的地方,就必須把計數板上的數字轉化成羅馬數字,這可就費時費力了。算術賦予了數據新的意義,因為它現在不但可以被記錄還可以被分析和再利用。阿拉伯數字從12世紀開始在歐洲出現,而直到16世紀晚期才被廣泛採用。到16世紀的時候,數學家們大肆鼓吹他們使用阿拉伯數字計算能比使用計數板快6倍。但最終讓阿拉伯數字廣為採用的還是複式記賬法的出現,它也是數據化的一種工具。

公元前3000年,會計手稿就出現了。但是,記賬法在接下來的幾百年裡發展緩慢,基本上一直保持在記錄某地的某個特定交易的階段。記賬人和他的僱主最關心的就是判斷某個賬戶或者自己所從事的行業是否賺錢,而這正是當時的記賬手法無法輕易做到的事情。


「大數據時代」量化一切,數據的核心


到了14世紀,隨著意大利的會計們開始使用兩個賬本記錄交易明細,這種尷尬的境地開始發生改變。這種記賬法的優勢在於,人們只需要將借貸相加,就可進行製表並得知每個賬戶的盈虧情況。如此,數據驟然發聲了,雖然僅限於讀出盈虧情況。

如今,複式記賬法通常被看成是會計業和金融業不斷髮展的成果。事實上,在數據利用的推進過程中,它也是一個里程碑似的存在。它的出現實現了相關賬戶信息的“分門別類”記錄。它建立在一系列記錄數據的規則之上,也是最早的信息記錄標準化的例子,使得會計們能夠讀懂彼此的賬本。複式記賬法可以使查詢每個賬戶的盈虧情況變得簡單容易。它會提供交易的記賬線索,這樣就更容易找到需要的數據。它的設計理念中包含了“糾錯”的思想,這也是今天的技術人才們應該學習的。如果一個賬本看著不對勁,我們可以查詢另一個相對應的賬本。

但是,和阿拉伯數字一樣,複式記賬法也沒有立即取得成功。直到200年之後,一個數學家和一個商業家族才讓它大受歡迎,他們也改變了數據化的歷史。這個數學家就是方濟各會的修士路薩·帕西奧利(Luca Pacioli)。1494年,他出版了一本為普通讀者和商人所寫的數學教材。這本書大獲成功,成為盛行一時的數學教科書。這是第一本全書都使用阿拉伯數字的書籍,因此也促進了阿拉伯數字在歐洲的傳播。當然,這本書最大的貢獻在於它對複式記賬法的詳盡論述。接下來的幾十年間,這個論述複式記賬法的部分被分別譯成了6種語言,並且成為幾個世紀的通用範本。

而所謂的一個商業家族,就是指美第齊家族——威尼斯商人和藝術資助人。16世紀,這個家族能成為歐洲最有影響力的銀行家族,很大一部分要歸功於他們使用的一種高級數據記錄方法——複式記賬法。

帕西奧利的著作和美第齊家族的成功奠定了複式記賬法成為標準數據記錄法的基礎,也奠定了阿拉伯數字在此之後不可取代的地位。伴隨著數據記錄的發展,人類探索世界的想法一直在膨脹,我們渴望能更精準地記錄時間、距離、地點、體積和重量,等等。

到了19世紀,隨著科學家們發明了新工具來測量和記錄電流、氣壓、溫度、聲頻之類的自然科學現象,科學已經離不開定量化了。那是一個一切事物都需要被測量、劃分和記錄的時代,人們理解自然的熱情甚至高漲到通過分析測量人的顱骨來試圖分析人的心智能力。

好在,對顱相學這類偽科學的熱情最終淡去了,但是人類對於量化一切的熱情卻始終沒有減退。新工具和開放的思維促進了測量事物和記錄數據的繁榮,而現代數據化就誕生於這片沃土之中。數據化的基礎已經奠定完好,只是在模擬時代這依然是費時費力的。

有時候似乎需要無窮無盡的激情和耐心,或者說,起碼也要有奉獻一生的準備,比如16世紀的第谷·布拉赫(Tycho Brahe)就夜夜細心觀察天體運動。數據化在模擬時代成功的例子並不多,因為這需要很好的運氣——一大串的偶然巧妙地結合在一起。

​中校莫里就很幸運,他因傷坐進了辦公室,但是卻在那裡發現了珍貴的航海日誌,可不是每個人都能這麼幸運的。然而,數據化的實現有一點必不可少,那就是要從潛在的數據中挖掘出巨大的價值,然後揭示出新的深刻洞見。計算機的出現帶來了數字測量和存儲設備,這樣就大大提高了數據化的效率。計算機也使得通過數學分析挖掘出數據更大的價值變成了可能。簡而言之,數字化帶來了數據化,但是數字化無法取代數據化。數字化是把模擬數據變成計算機可讀的數據,和數據化有本質上的不同。


分享到:


相關文章: