「獨家·前沿」大數據與AI如何用於社會科學?文繼榮教授把原理都講清了

↑↑↑點擊上方藍字關注“人大重陽”

本文大概

2000字,讀完共需3分鐘

「独家·前沿」大数据与AI如何用于社会科学?文继荣教授把原理都讲清了

當前大數據、人工智能、深度學習這些詞比較熱,今天藉此機會與大家分享一下。不會講太多理論,儘可能通俗。

「独家·前沿」大数据与AI如何用于社会科学?文继荣教授把原理都讲清了

中國人民大學信息學院院長文繼榮教授

一、科學的核心問題

無論是自然科學還是社會科學,解決問題的基本原理可以用一個簡單的函數表示:“Y=F(X)”。對於一個輸入X,需要找到一個模型(函數)F,然後產生一個輸出Y。其實我們在學習、研究、工作、日常生活中都在找類似的模型——換句話說就是事物的一般運行規律和法則。

模型有著重要的作用。我們找到合適的函數(模型)F,你給出什麼自變量,就能得到相應的因變量。

「独家·前沿」大数据与AI如何用于社会科学?文继荣教授把原理都讲清了

二、解決問題的三種方法

1. 傳統模型方法

通過觀察少量的事物,通過少量的自變量和因變量對(X,Y),抽象得到一個一般化的模型Y=F(X)。例如牛頓通過對少量事物的實驗、分析和觀察,就能抽象出重要的物理規律。模型最重要作用的是緩解了樣本的不足,可以通過少量的樣本推斷到一般情況,我們把這叫泛化。

2. 大數據方法

我們一直在各個領域探尋簡單優美的模型F。但是這個方法不是萬能的。尤其在一些複雜的像社會科學領域,比如股市預測等。不只是Y=F(X)這兩個變量。股市裡有成千上萬人在裡面博弈,每個人都有自己的想法,買進賣出。所以要尋找到合適的模型存在很大的挑戰,尤其在社會科學研究方面。我自己的深刻體會是,其實社會科學的很多問題比自然科學要複雜。包括經濟、金融等的問題都很複雜,相關模型構建很有挑戰性。

大數據時代給我們提供瞭解決上述問題的新途徑。當數據多到一定程度,我們對一些以前需要依賴模型解決的方法,可以做到不用模型了,可以直接用數據解決。

「独家·前沿」大数据与AI如何用于社会科学?文继荣教授把原理都讲清了

如上圖,Y=F(X)。傳統方法要找到通用的X到Y的函數F。但是如果這個F特別難找,比如裡面有幾萬個變量,函數的形式會特別複雜。我們可以繞過模型F去搜集大量的X和Y的對應。蒐集到足夠多的時候,你就可以直接拿X去匹配相應的Y(見下圖)。

「独家·前沿」大数据与AI如何用于社会科学?文继荣教授把原理都讲清了

F(X)就像一個黑箱,我們原來想搞清楚黑箱裡面是什麼,但如果實在搞不清楚裡面是什麼的時候怎麼辦?我們可以蒐集海量的輸入輸出數據,到一定程度可能所有的X和Y我都有了。這個時候我就不用知道黑箱裡面是什麼,因為我只關心一個X它對應的Y是什麼,我不關心Y是怎麼產生的。這是大數據方法的本質。所謂的大數據方法是充分利用了計算機最強的兩個能力:記憶力和計算力。計算機在記憶力和計算力上遠遠超過人類,人與它是完全沒有辦法比的。

3. 深度學習方法

大數據方法有很多成功的應用。但是這種方法不能處理數據覆蓋不到的情況,即對於一個給定的X,當樣本數據裡其對應的Y時,我們就無法知道Y是什麼。在這種情況下,我們仍然需要去探尋模型F。但與傳統的模型方法不同的是,我們希望將大數據和模型方法結合,從海量的自變量和因變量對(X,Y)中學習一個複雜的模型F,這就是人們通常說的深度學習。

三、大數據與人工智能在社會科學中的應用

在中國人民大學,我們正在探索如何將大數據與人工智能技術與人文社會科學結合。這裡舉幾個例子簡單談一下。

(一)與金融經濟領域的結合。這些領域的結合是非常廣泛的,而且越來越發揮著重要的作用。比如我們和經濟學家們進行合作,他們想研究某個經濟現象時,經常會遇到一個棘手的問題:很難找到研究數據。但基於大數據技術和自然語言處理技術等,我們能提取和解析出海量相關數據和信息,而且可以通過數據可視化技術等動態展示出來。這對金融經濟領域的研究幫助是非常大的。研究方法的突破能幫助你發現很多以前難以發現的問題。

(二)與新聞傳播學的結合。數字化傳播過程中的大數據和人工智能技術應用已經非常普遍了,大家估計也接觸過不少。舉一個例子,在輿情監測方面。比如我們現在想了解 “霧霾”的輿情。對“霧霾”進行網絡搜索,結果顯示有500多萬條,人工讀完是不可能的。但是通過智能的大數據和自然語言處理技術,500多萬條,瞬間機器就可以全部讀完並給出分析報告。

「独家·前沿」大数据与AI如何用于社会科学?文继荣教授把原理都讲清了

(三)與歷史學的結合。歷史研究要面對大量的史料。歷史學家每次要研究一個東西,比如研究稅收,研究災害,要看很多史料,費時費力。但我們可以用計算機對史料進行分析。比如災害史,就可以通過人工智能技術從各個史料當中分析出歷史上發生災害的時間、地點、當時經濟社會情況、是否引發暴動等相關各項要素等。基於此,我們可以把複雜的歷史問題轉換成數據分析問題,並且可以通過可視化直觀展現出來。

(四)與法學的結合。法學也可以轉變成基於大數據和人工智能的學問。例如我們通過學習近千萬份的法律文書,可以讓機器學會自動量刑、判案。也可以通過讓機器學習海量案例,分析各類案件的發生規律、演變情況等。這對社會治理有著很重要的意義。

總的來說,社會科學中的研究對象是非常複雜的,大數據和人工智能技術在社會科學中的應用還處於比較基礎的階段。隨著人工智能技術的進一步發展,特別是在自然語言處理等認知智能方面的突破,會對社會科學發展和人類整個社會帶來深刻的影響。


分享到:


相關文章: