經典綜述回顧：計算社會科學的5種研究方法教育頭條網

導語

如何分析社交網絡的信息流動？如何系統地觀測社會地理信息的變化？如何在計算機中模擬眾多個體的社會行為？這些都是計算社會科學的研究內容。作為一門脫胎於社會科學、計算機科學、複雜性科學的交叉學科，計算社會科學研究方法眾多，有學者在2010年就做了詳細的綜述，讓我們一起來回顧。

編譯：集智翻譯組
原題：Computational Social Science

社會科學是一門從認知、決策、行為、團體、組織、社會、和世界體系等多個層面上對人類行為、社會動態以及社會組織進行考察分析的學科領域。計算社會科學是將社會調查與信息處理方法與高級計算媒介、複雜性科學等多門學科綜合起來形成的一門學科。

目前，計算社會科學領域涉及到的研究方法主要有，自動信息提取系統、社交網絡分析、社會地理信息系統（socio-GIS），複雜性建模和社會仿真模型。就好比伽利略使用望遠鏡作為更真實地理解宇宙的關鍵工具一樣，計算社會科學家正在利用先進的、日益強大的計算技術工具瞭解一些超越傳統學科分析範圍的新鮮事物。

我們在本文中主要是對計算社會科學的研究領域、與社會科學之間的關係、現有的主要的理論作簡要的概述。雖然歷史並不長，計算社會科學已經涵蓋了許多研究領域以及研究主題，其中有些領域與主題超出了社會科學以前在人類行為和社會動態的研究領域。越來越多的學者的加入這個學科，他們逐漸界定了這門學科的主題和研究範圍。在這些學者的研究中，有的是重點研究最新的社會動態，有些則關注早期的基金會的形成與發展，或者是為了吸引讀者，而不對計算科學一些深入的技術細節進行闡述的研究。

在我們的讀者當中，可能有一些對一般的社會科學不熟悉的讀者，因此在本文的第一部分，我們介紹了相較於計算社會科學更為廣泛的人文科學，同時也包括了計算社會科學關於集群行為的研究方法與模型。

背景

在開始的介紹部分，我們提到社會科學或社會科學的學科領域考察各式各樣的人類行為、社會動態以及組織形式。根據研究的範圍和側重點的不同，傳統的社會科學學科被分為了五個：社會心理學、人類學、經濟學、政治科學和社會學。而每一個學科又都包含幾個分支專業，例如：

人類學由體質人類學（又稱，“自然人類學”、“人體學”）、文化人類學（又稱為“社會人類學”）、考古學、語言人類學組成；
政治科學包括比較政治學、國際關係、公共政策管理與研究方法等分支學科；
統計作為科學的分析方法在所有的社會科學學科中發揮著重要的作用，不僅僅是社會科學及其分支專業中，還在地理學（人類和社會地理學）、歷史（社會科學史和氣候學）、語言學、管理科學等其他人文科學學科中扮演著重要的角色。

在過去的兩個世紀，自啟蒙運動觸發了對社會進行科學研究以來，社會科學已經發展了三種當代社會科學研究方法：統計學、數學和計算。使用這些研究方法主要是為了描述和歸納（統計）、發展理論研究（數學）、和模擬複雜系統（計算），這些研究方法由於與社會科學相似的原因也被物理科學和生物科學所用。社會統計和數學社會科學是迄今為止三種方法中最古老的方法，他們有著悠久的歷史傳統並且植根於“政治算術學”的理論和概率論。

有意思的是，“統計學”曾經是“政治學”的原名，政治學是作為國家和政體的學科，就好比經濟學是經濟的學科，而語言學時語言的學科。

計算社會科學是一個較現代的學科，最遠可以追溯到20世紀中後期電腦剛剛發明的時候。在20世紀60年代，社會科學家開始使用電腦進行統計數據分析，當時SPSS、SAS等統計分析軟件才剛剛開始出現，也正是在這時，出現了計算社會科學的第一代奠基人：Herbert A. Simon（1916-2001）、Karl W.Deutsch（1912-1992）、Harold Guetzkow（1915-2008）和Thomas C. Schelling（1921），他們更偏向計算社會科學理論方面的研究。

計算社會科學將社會系統當作信息處理的組織，通過先進的計算方法對社會系統進行綜合性的跨學科的研究。因此，社會科學中的計算範式有著雙重來源：實質性的（作為理論視角）和工具性的（作為一種方法論）。前者所指的信息處理和控制論來源是基於Ross Ashby，Norbert Wiener，Claude Shannon和Ludwig von Bertalanffy早期的研究，在這裡，我們將重點放在後者，也就是計算社會科學研究方法。

就像伽利略利用望遠鏡作為關鍵的觀察工具最終獲得對物質世界更深刻、更真實的理解一樣，計算社會科學家正在學習利用先進和日益強大的計算工具來超越傳統的學科。

因此，計算社會科學是一種由分析工具支持的科學學科，在這個方面，社會科學與微生物學、射電天文學或納米科學類似，這些學科分別由顯微鏡、雷達和電子顯微鏡等儀器設備支持，來推動發現新的科學研究領域。在工具支持的學科中，分析考察工具都是推動這些學科理論和實踐發展的關鍵因素。

目前，根據使用環境的不同，計算社會科學方法主要分為五個：

自動信息提取
社會網絡分析（SNA）
地理空間分析（又被稱為社會地理信息系統、地理信息系統、社會GIS）
複雜系統建模
社會仿真模型

同樣的，每個方法下面也被系統的劃分為多個模型，例如計算社會模擬模型包括系統動力學，微觀分析模型，排隊模型，細胞自動機，多主體模型，學習和演化模型，包括一些組合方法【例如，結合系統動力學和多主體仿真模型（ABMs）】。另外，這五種方法之間的幾種組合也很常見，如在由反彈道導彈模擬時引入表達社會複雜性的冪律分佈模型，計算社會科學領域還如此的年輕，並非所有可組合協調的模型都已經嘗試過，一些領域仍然有待探索，歡迎各位讀者嘗試。不久之後，數據可視化和 “聲處理”也將有可能成為計算社會科學的專業分支。最重要的是，每種計算方法都可能超越傳統社會科學方法，甚至超越以前的統計和數學方法，從而提供解決問題的獨特的科學見解。

目前計算機社會科學研究組織是由多個國際協會組成的，其中包括北美計算社會及組織科學協會（NAACSOS），歐洲社會模擬協會（ESSA）以及亞太多主體仿真社會系統科學協會（PAAA）。每個區域協會都會舉行年度會議並出版會議記錄，此外每隔幾年召開一次聯合世界大會，2004年在日本京都理工學院舉辦，2006年在美國喬治梅森大學舉辦、2010年在德國卡塞爾大學舉辦。主要同行評審的專業期刊包括《人工社會與社會仿真》（JASSS）、《計算數學組織理論》（CMOT）、《社會科學計算機評論》（SSCR），《複雜系統進展》（Advances in Complex Systems）和《經濟互動與協調期刊》（Journal of Economic Interaction and Coordination）。計算社會科學研究在許多社會科學期刊（如《美國社會學研究》，《美國政治科學評論》和其他主流期刊）以及跨學科期刊（IEEE Transactions on Systems，Man and Cybernetics）中也越來越容易見到。

方法一：自動信息提取

文本分析曾經是一種非常普通的分析方法，它通過編碼文檔從中提取信息與數據。近來，文本分析方法不斷演變，除了文字文本之外，還可以分析音頻、圖像、視頻。由於政府和學術界的不斷推進，文本分析方法的計算效率在學術界有了一個很大的提升，但在實際應用方面仍存在著很大的缺陷。

今天，伴隨著人工智能和其他計算算法的出現，文本分析，信息提取將很有可能在實際應用上取得巨大的突破。自動化提取的主要用途之一，是獲得“事件數據”（events data），使用時間序列分析、語義分析、隱馬爾科夫模型、微波分析、事件生命週期建模等方法分析“事件數據”。這些方法經常與其他的方法結合使用，比如在下一節中提到的複雜系統理論的方法。除了這些方法，還有許多的自動文本提取算法和系統可以挖掘網絡數據結構，比如從圖論和社交網絡分析中組合出來。

在應用領域，自動信息提取技術由於可以挖掘實時的數據流，如新聞廣播或其他電子報告，不僅可用於異常檢測和預警，同時也可用於監測趨勢和評估干預和項目執行等。若自動信息技術再完美些，應該能夠成為日常工作系統升級或運營中心不可缺少的一部分。社會科學領域可以說是文字豐富但數據較差，因此自動信息提取技術和文本挖掘技術在該領域有大展身手的空間，如果能合理應用，將來一定會在計算社會科學研究中取得重大突破。

方法二：社會網絡分析（SNA）

現代的社會網絡分析（以下簡稱SNA）以純粹的數學理論為基礎，社會網絡圖更像是一個數學圖表。我們首先來簡單描述社會網絡，社會網絡將個人或一個社區看作一個點，個體（社區）與個體（社區）之間可能存在的相互依賴關係用連邊表示，這樣許多人（社區）就構成了一張社交網絡。聯盟、恐怖組織、貿易體系、認知信仰體系和國家社會體系本身都是常見的社會網絡，是社會科學家們感興趣的研究對象，例如Stanley Milgram 研究提出了著名“小世界”網絡。

社會科學家們提出許多研究SNA的計算算法，不僅方便了SNA結果的可視化，還方便了對網絡適應性、功能性、弱點及網絡分解的理解。例如SNA可以根據網絡的節點和關係的結構模式，如彈性、脆弱性、可分解性、功能性等得出關於組織結構更深層次的信息，另外，SNA可以應用於設計更強大和可持續的網絡如交通運輸網絡等。

通過社會科學家們深入的思考，SNA有了許多實際應用：

信仰系統，以瞭解極端主義思想和進程比如激進化；
聯盟和條約系統，以瞭解它們的歷史沿革；
國際和跨國組織，例如可分析推測恐怖分子網絡；
網絡遊戲，例如瞭解擴散者與反擴散者之間，非法販運者與政府之間的關係網。

網絡在社會系統和任何重要的科學研究中都存在，同時也是許多政策問題的組成部分。

圖1 互聯網構成的社交網絡

圖片來源：http://www.tooopen.com/view/1057706.html

方法三：社會地理空間分析

（socio-GIS information systems）

地理信息系統（GIS）最初是社會地理學家和製圖員研究地理現象的可視化工具和空間分析的工具。社會地理空間分析（以下簡稱社會GIS）目前在社會科學中有了許多應用，比如在犯罪學和區域經濟學應用社會GIS可以有效的量化衝突，與其他的量化技術結合在一起可以產生一些使用數學和統計模型無法獲得的有趣的見解。這一領域目前正在積極地向地理空間科學發展，Google 地球及其數據設施的發展為社會GIS增加了另一個維度，帶來了新的調查方法；而該領域另外一個重要的發展是成立了國家地理信息與分析中心，一個致力於地理信息科學及其相關技術（包括地理信息系統）基礎研究和教育的獨立研究聯盟。

方法四：複雜系統建模

（Complexity modeling）

20世紀末，複雜系統科學興起，這一新興學科對生命系統、人腦系統、社會系統、經濟系統等複雜的系統進行了研究。那什麼是複雜系統呢？抽象的說是指個體之間的相互作用比較複雜的系統，比如常見的生態系統、經濟市場、社會系統都屬於複雜系統的範疇。

系統之所以複雜，是由於系統表現出非線性、湧現、自適應等不同的特性，而導致系統不能使用普通的、簡單的線性模型來表示。常見的複雜系統建模有神經網絡建模、基於主體的建模方法、遺傳算法、粒子群優化算法、蟻群優化算法等。複雜系統的理論模型為社會科學中的非均衡系統的動態分析提供了理論支持，非均衡動態系統的例子常常發生在全球最具有挑戰的社會科學研究中，如恐怖襲擊、發展中國家的財富和貧困，政治不穩定，外國援助分佈和國內和國際衝突等。

相比之下，均衡系統的特點是狀態變量接近正態分佈（高斯分佈或“鍾型”分佈），很少偏離中心，而非均衡動態系統則被發現系統中的幾個重要變量是遵循冪律分佈的，如在戰爭中的死亡率服從冪律分佈。

冪律分佈是計算社會科學中最常見的複雜系統模型。帕累託首次將冪律分佈函數應用於經濟學中，給定變量X，則有概率密度函數p(x)~x^(-a)，其中a>0,是所謂的帕累託指數。

圖1 正態分佈（“鍾型”分佈）

圖2 冪律分佈

很早之前，科學家們就在社會科學研究領域進行復雜系統的研究，重要的基礎已經存在，然而伴隨著複雜性理論的概念和模型的持續發展，在社會科學研究中應用複雜模型這一領域，仍然有很大的提升空間。

方法五：社會仿真模型

仿真（Simulation）又被翻譯作模擬，泛指基於實驗或訓練為目的，將原本的系統、事物的關鍵特性或者行為功能予以系統化和公式化，從而對關鍵特徵做模擬，從而達到預計系統的發展趨勢、發展結果等效果。仿真不僅僅是一項技術，也是一種解決問題的方法。

對於社會經濟等系統，很難在真實的系統上進行實驗。早期的計算社會科學的仿真模擬起源於對國家安全和國家政策的研究。計算機仿真模型在基礎社會研究和政策分析一個特別有價值的應用特徵是能夠運行當前的和備選的策略，觀察不同策略對系統的影響，以評估不同策略效果。

比如你要研究美國發動與俄羅斯之間的戰爭將會給美國帶來多大的損害，不可能去真正的發動一場美國與俄羅斯之間的戰爭，這時使用計算機模擬仿真技術可以模擬一些不同的發動戰爭的策略，對戰爭引起國家的損失進行預估，從而尋找到最優的方案。另一個非常有價值的特徵是仿真模型能夠在模擬過程中對各個參數進行靈敏度分析，以觀察各個參數的魯棒性，或驗證模型的性質和假設。假設在社會科學研究中非常的關鍵，驗證假設的正確與否關係到研究的結果的正確與否。

系統動力學

系統動力學模型開始之初主要應用於工業企業管理、市場股票與市場增長的不穩定性等研究上，因此早期被稱為“工業動力學”。它起源於美國麻省理工學院 Jay W.Forrester 教授的名著《工業動力學》，隨著研究範圍的逐漸擴大，改稱為系統動力學。所以系統動力學不應當理解為一個簡單的模型，也不應當理解為計算機仿真模型下的一個分支，它是系統科學與管理科學交叉的一門學科。它將系統理論與計算機仿真模擬緊密結合形成了自己獨特的一套理論。系統動力學從解決問題的角度出發，建立實際問題的計算機仿真模型系統，設計、測試選擇解決問題的方案。常見的系統動力學案例有傳染病模型、城市發展規劃模型等，麻省理工學院的N. Choucr等人在《International Politics and Conflict Dynamics》一論文中提出了政治動態模型，使用系統仿真分析確定了一系列緩解叛亂的政策，通過傳統的數據分析或其他傳統的社會科學研究方法是無法獲得這麼有洞察力的結果的。

基於主體的仿真建模（ABMs）

多主體仿真模型的本質是計算機模擬，它模擬一個給定的目標系統，包含系統中一系列可交互的參與者、互動規則、靜態或動態的環境特徵，對個體的行為準則進行建模，進而解釋個體行為或集體和宏觀行為的出現。它被廣泛應用於集體、公眾情緒影響範圍。這些也是社會科學應當主要研究的領域。如果對基於主體的仿真建模有興趣，建議讀者們讀一些有趣的故事：Bhavnani R等的《Simulating closed regimes with agent based models》中的盧旺達種族滅絕模型；MASON RebeL的《An Agent-Based Model of Politics, Environment,and Insurgency》一文中提出的不規則的戰爭模型等。

小結

在本文中，我們從社會科學出發，逐步引入計算社會科學的概念，計算社會科學有別於以往的社會科學的地方就在於其藉助大量新興研製出來的計算機軟件，如R語言、Python、Stella 軟件或Vensim軟件，以及新開發的優化算法和模型。正如近代物理學中使用的實驗工具大大推進了物理學的發展一樣，應用這些新的軟件模型或將使社會科學真正進入現代科學範疇，建立科學的研究範式。

另外，我們向讀者介紹了計算社會科學最主要的5種研究方法，

自動信息提取系統、社會網絡分析SNA、社會地理信息系統、複雜系統建模和社會仿真模型。這些模型必須符合內部和外部有效性標準。先進的社會科學研究方法越來越多，在當下和未來，我們可以預見到社會科學能夠幫助我們分析和理解所面臨的最複雜的社會問題。