大學在“數字人文”中的角色和作用:重思理論與方法

按:本文為北京大學歷史學系教授朱青生2020年1月16日在北大“數字人文”建設研討會上的發言

大学在“数字人文”中的角色和作用:重思理论与方法

2020年1月12日,哲學系韓水法教授在德國中心做了關於人工智能時代的人文科學的報告。在這個報告中,他主張今天的人文科學要追問以下三個問題:

1.人是什麼;

2.人的性質在人工智能時代的變化(人工智能時代可以直接對應“數字人文”中的“數字”所指);

3.變化前後的關係。

這三個問題實際上也是大學在“數字人文”中所要遵循或必須重新思考的理論依據,在理論思考的基礎上,才談得上如何使用的方法。當然,在方法中有很多具體的技術性問題。恰恰是在“數字人文”這個問題上,是有了數字技術之後,即變化發生之後,才繼續來思考人文的問題,但與人文精神似乎已經相當地遙遠,或者已經非常地迫切,甚至 “數字人文”這個概念本身就是“人文”的悖論。按照韓水法老師的總結,就是:“如下一種消極情緒漸漸的瀰漫於人文主義的各派中:人不僅受到制度的壓迫和限制,還受到了自然科學和技術的壓迫和威脅。與此相應,如下一類傾向和態度在今天依然有不小的影響:反對進步,保持傳統的風俗習慣,甚至復辟古代社會的制度習俗以及迷信。”他還引用布洛克的說法:“20世紀上半葉起人文主義所經歷的主要衝突,乃是體現了人文主義的情感或非理性的因素與理性的衝突。”發展科學到底是為了人的全面發展還是為了消滅全面的人,把人都塑造成一個單面的科學人?這本身不就是進入人工智能時代之後人文的問題?人文的問題就是人的問題。

數字人文的各項工作都可以由各個方面的人來參與,數字技術和條件的發展基地正在發生漂移,一個機構如Google或華為所能進行的實驗和生產不僅是在應用層面,而且是在學科基礎層面。但是在大學裡面到底怎麼樣參與,大學應該在其中起什麼樣的作用,擔任什麼樣的角色?本來中世紀大學並不是因為理性的需要,而是出於神性的傳播而建立,但是現代大學早已是理性的保障和創造知識和傳播知識的堡壘。創造知識的前提是對於這個課題有充分的反思,今天是否應該考慮,我們既要從數字人文發展的基本原理和根本要求出發,也要從實踐的可能性上試驗和謀求可行性方法。這裡我想講我的三個意見。

筷子理論

第一是大學應該創造性地製造和建立數字資源之間的“鏈接”——需要“筷子”。

在人文的意義上讓技術條件最大限度地方便和有效地解決人的問題。對於全文數據庫的通用和稽查,大學所提供的任務,主要是在通用性上製造之間的結合、聯合和通用索引,獲得信息的最方便、最合適的辦法。

北京大學曾經在1996年做過一個古文獻全文數據庫嘗試。當時由海德堡大學漢學系的瓦格納教授出資,由中文系古文獻研究所的孫欽善教授和我合作來負責學術。這個數據庫建成之後,當然作為研究古文獻數據庫的角度,從中也探索瞭如何建造電子數據庫的一些校對校刊、錄入的規範和方法,其實我們更多看到的是這個工作並不適合大學研究人員來承擔完成的工作,而是應該由一些專門的學術機構、圖書館(含大學圖書館)或者是商業機構來進行操作。當時有不少學校想要在中國做一系列數據庫,提出要做《史記》的就有六、七家,完全沒有必要。因為此時中國臺灣的“中央研究院”已經做成了二十五史全文數據庫,所用的底本是中華書局標點本。海德堡大學漢學系還給大陸學者專門資助,可以在海德堡使用他們購置版權的客戶端。所以我們已經意識到世上將會有成千上萬的數據庫,事實上今天我們也看到,各個圖書館都有無數並不斷增加的古文獻數據庫和研究文獻全文數據庫,甚至是古籍珍本開放數據庫。當時我們的想法就是應該做一個可以用“一個方法,一條途徑”進入所有數據庫的工具法,使得使用者可以非常方便地,而且符合邏輯地,符合最新知識圖譜作為背景地,去稽查所有的全文數據庫,並對不斷增長的數據庫保持開放。所以我們向北京大學王義遒副校長提出了申請,組織相當於今天的“數字人文”工作組來解決這個課題。可惜當時北京大學還沒有把注意力移到這個方面。(現附1999年的一個發表記錄於後,附錄1)

今天這個問題在世界的數字人文範圍內並沒有全部解決,只是我們有了解決它的可能。如果我們北京大學圖書館能把已經買下版權的數據資源提供給數字人文研究所來進行這樣的實驗,未來就可能會把這個工具帶向所有的數據庫,在一個統一的稽查系統中來建造更高層次上的應用,雖然數據庫之間多有重複,互有短長。

在歐洲膳食中餐具多種,每吃一道菜就要用不同的刀叉,在德國甚至發明了針對不同的水果不同的刀具,獼猴桃和蘋果各不一樣,而中國人只用一雙筷子就可以吃所有的食物,這就是我們說的“筷子理論”。

馬球理論

第二是大學應該關注知識的全體,建造連接,擊破阻隔和區域保護——需要“馬球”。(即把司馬遷的“究天人之際,通古今之變”理念全球化)。

我們要用新技術來覆蓋和整合人類全部遺產,打破壁壘,完成聯合。今天看到的所謂的密鑰技術、通訊保密主要來自於軍事上的發展和人類之間競爭的需要,無疑這是過去和今天數字技術發展的主要動力,但也是人類自我殘殺和互相壓迫的潛在根據,是人類文明的保護與發展的巨大的阻礙。人類的和平絕不會因為我們互相之間的保密而實現,而是因為我們之間的開放、人類所有成員之間的共享而逐步成為可能。

所以在這種情況之下,我在國際藝術史學會推進了這樣的一種工作,作為我在執掌學會階段的四大任務之一,就是在區塊鏈(block chain)、5G和量子計算所提供的各種可能性上,建造互相之間的差異性的聯繫,使得視覺與圖像可以在所有的人之間得到分享和共享。請見附錄中我做的元旦《國際藝術史學會2020新年賀詞》節選(附錄3)。

當然我們希望人類和平,國家之間放棄競爭,保持合作,尋求人類的共同發展。但事實上,隨著人類科學和技術的高度發展,可以解決疾病的問題,也可能解決饑荒的問題,卻絕不可能解決戰爭問題。人的榮譽總以超越平庸(常人)和折服他者(同行)作為存在的前提,人的尊嚴都是以抵抗超越和消滅優先宣示奮鬥的目標,羨妒交纏,生死相以,科學和技術的發展只會使人間的矛盾日益激烈,文化的競爭更為慘烈,人對人的壓迫和侮辱愈發深入到骨髓和融入世代的血液之中,我們還沒有天真到相信勝利者會消除傲慢和偏見,球隊的競爭和情敵的仇視都會變成恨意,今天連小學生都要鼓勵排名和競爭,製造和販賣焦慮,怎麼可能會因為技術的進步,財富的增長,內心的自信與尊嚴的膨脹而減少和消除掉人與人之間的差異呢?我們已經感覺到今天的國際形勢向我們展現出不容樂觀的現實和未來,但是我們還是要不遺餘力地去追求人的平等和人之間的溝通與共享。

天下先理論

第三是大學要做原創性的基礎工程,要在人類文明和最新技術的最前沿創造制度和方法,凡是別的機構、學校已經做過的,拿來使用即可,但是時刻不忘要做前瞻性、原創性的探索。

下面簡單談談從1999年“網相語”的休眠到現在的“會生長的學刊”——國際藝術史學會學刊E-journal版的重新再起。

1990年代我們在北大實驗如何通過計算機把圖像與語言結合成一體在“視網膜和腦神經之間的段落付諸傳播”。我們今天在利用超文本鏈接和各種新媒體時,實際上只是把數字技術發生之前的人的自然“語言”做成了“電子版”。其實在舊石器時代結束前的很長一段時間裡,所有的人類交流主要是通過圖像來進行。今天,圖像是圖像時代的基本數據和媒介,也是我的專業“藝術史”的前沿問題。圖像除了我們熟悉的繪畫和交通標誌之外,除了大量的“新媒體”的模仿和敘事之外(此處的“新媒體”包括“舊新媒體”(照片)、“中新媒體”(電影)和“新新媒體”(計算機圖像)),還包含著觀看、攝製、描繪、圖解、符碼、文字和心像等7種不同的圖像,混在一起傳播。那麼我們是否可以不按照現成的圖像和現成的語法來進行交流,而是在它們還沒形成完整的圖畫(和文章)之前,就可以在網絡上通過數字技術訴諸交流?這樣的交流就是我們90年代在北大實驗的“網相語”,也就是說,可以不用人腦的方式來規定機器,而是用機器的技術邏輯來重新定義人的交流和發展。這才是有了數字技術以後人與人之間的新的交流方法,也是數字人文的意義之所在。(請見附錄中2000年記錄思路的發表記錄,附錄2)

當時我們把這個實驗建議提交到了北大,也提交到了當時的中信部,但是那時的中國還沒有今天這樣的條件和氣質,即超越發達國家,去探索直接針對和解決前沿問題的可能性。而之所以我們會想到做這樣的事,是因為我們的專業是當代藝術。當代藝術有一種基本性格就是“原創”。“所有的作品都必須是前人沒有做過的,也與同代的其他人不一樣的”,作品才有意義,否則這件當代藝術作品不能成立。正是因為有了這樣的基本法則,我們才會不間斷地產生和追求各種實驗的新思路。我們之所以推進網相語的探索,是因為中國的文字(漢字)具有圖性,而中國的圖畫具有寫(意)性,中國的藝術品具有文字和圖像共同並存所形成的圖與詞之間的間性,我們可以用此在腦神經傳輸和圖像意義識別的問題意識上來推進,對於圖像識別問題,不是僅僅依賴深度學習的思路,而是使用對圖像的結構和性質的分析。但是被擱置了。

一晃20年過去了,被甩在了世界的後面的我們,又一次成了追趕者,但是追趕也不能一直跟隨,如果能夠突破,就要儘量往前,條件的艱難和基礎的薄弱並不能減少一個大學學者對世界的文明的義務和對學術的責任。我目前利用自己作為國際藝術史學會主席的權力再次推動局部試驗。在主持國際藝術史學會的學刊和官網時,用了“E-journal——會生長的學刊”概念,就是說這個學刊的論文在發表的同時,經由全球聯網和人工智能圖像和文獻的搜索系統,為之不間斷地增加修訂和補充的數據和結論。設想一下,當你在20分鐘之後打開自己發表的文章時,你的文章已經被修訂過了,這個修訂的過程所有人都可以參與(這個在許多科學刊物已經做到),更多的是“數字人文”自動進行,每一點修改都有電子痕跡標明個人的貢獻。在去年9月在佛羅倫薩舉行的國際藝術史學會的理事會上,我的這個提議還是被我們本行的同事否定了,他們認為只能在年輕的學者中先行實驗。當然這個項目的意義與網相語不可比,但是可以在北大實驗嗎?這是我的問題,似乎這是大學在“數字人文”中的角色和作用不可替代之處的又一次呼籲。

當然,我們要不停地來反思和建造人文。今天在大學裡還在追問人為什麼需要人文這樣的東西,所以我們所有的事情只要發生問題,終究還是為了人本身。我們今天受到了後人類的壓迫,不少思想者也把人文主義和人類中心主義放在一個可以批判的立場上,但是當批判者已經不存在的時候,所謂的人文主義和批判的可能性就等於沒有。如果今天要問一個人文的根本問題“人拋棄了所有,到底還剩什麼?”,這個問題本身就是一個悖論,在數字技術出現(1994年10月麻省理工學院計算機科學實驗室成立,建立者是蒂姆·伯納斯·李)之前,在萬維網通用之前,這就是一個人文的悖論,就是說如果我們拋棄了一切,誰來拋?

如果我可以拋棄一切,那麼還有一個“我”在,這個“我”就是人,就是人本身。

附錄1:1999年的全文數據庫通訊摘抄

古文獻數據庫必須齊全。

全,是指所有古文獻都包含在內,並可以用一種簡便方法稽查。如果有部分古文文獻不包括在內,那麼就會在“數據統計”中喪失其最根本的原則——全面考查。如果各種古文獻分屬於各個系統,不能方便地統一檢索,全面考查就不可能進行。不能讓每一個研究者操作使用,空有文獻庫而不能全面發揮作用,雖可讓少數人解決局部問題,但不會使之成為中國人文科學的一個新臺級的基礎。況且,大家不能用,就不會有足夠理由和投入把古文獻全部做成數據庫。

齊,是指古文獻全文數據庫的質量要整齊。質量首先是原本的質量,要選擇相對來說校勘得較好的本子作為底本,其他較好的諸種本子作為附錄本。數據庫相當於資料庫的原始材料根據。製作數據庫不是進行版本校勘,只要版本出處明確,就可使用。不必糾纏於版本間的正誤,留給專家在數據庫基礎上去處理版本的問題。所以,數據庫的質量主要是電子版本要與所錄版本完全一致。

其實齊全是不可能的,因為古文獻留存至今的就是“烽火之遺葉”,損失不可計數。既使留存在世,也因人為原因,不可能一時盡收於庫。而且古文獻不斷被發現,對已有古文獻的整理工作不斷貢獻著新的成果。但是要求齊全是一種觀念、一種信念,追求齊全,盡其力而不可得是一種天理,而不肯盡力,淺為輒止,投機取巧則是一種人慾。數據庫建設必“存天理、滅人慾”而後可。

至於不斷髮現和出現的新的文獻和新的整理,只要瞭解數據庫的根本性質就是開放的,可以增補修改的,就不會成為問題。一旦數據庫統一公佈,必須配備專門機構管理。過去太學的祭酒管理石經,大概派個監生洗洗石碑,用墨拓一拓碑面,使人站在地上可以瞧見上半部分的字跡就夠了。今天主要工作是增補修正。

數據庫是國家大事,是中國國家形象的標誌,應該由國家統一組織。古有熹平、正始石經公諸天下,其現代形態正是今天的古文獻全文數據庫!不可能依靠民間或大學零打碎敲。中國大概有幾百個地方做數據庫,低水平重複,浪費大,又增加了使用方式的繁雜和混亂,用的也多是國家的錢。即使是個人的精力和財富,也是天地之珍、人文之託、家國之有,容不得閒拋閒擲。有些商業機構也想“以經濟工作為中心”做數據庫,結果是炒起來市場,封殺了用戶。我作為北大的教授,每年的教學科研經費平均幾百元,學生又如何“買得起”數據庫。所以古文獻全文數據庫的商業化,正好是對中國人文科學研究的阻礙,少數佔有原本和資金支配權的個人,可能會為了私利而延誤了中國國學的飛躍。

古文獻全文數據庫雖是中國國事,也是天下公事。境外除了臺、港之外,日本、韓國、美國、歐洲都有中國文化的研究,並動用他們國家和基金會的經費製作中文古文獻全文數據庫,其量和質不在國內水平之下。作為一箇中國的學者,一方面欣慰,一方面慚愧:中國並非無人力財力,缺乏統一管理,但此而已。我曾想敦請學校主管校長給國家主席和總理寫一份“奏章”,後來轉念一想,肯定他們已經知道此事(即使校長不呈“奏章”)。做數據庫已是國內“流行事件”,可能統一管理指日可待。

五六年以來具體地想方設法動手做數據庫,體會到目前關鍵在以下二點:

1. 用“機械校對法”保證錄入文本質量。

2.設計套用全世界所有全文數據庫的檢索軟件。

前年(1997年)學校召開數據庫討論會,樓宇烈老師說“又想用,又不敢用數據庫”,所擔心的就是校對質量。我們在做《全漢文》錄入工作時,曾探索組織各種校對方式,收效很值得懷疑。我自己的專著,前後校對六七次還是有錯。個人專著只不過涉及個人見解的表達,而數據庫原則上不可有一點錯誤,那是不是要校對100次呢?錄校數據以我們現行的方法,遺錯不斷。經過仔細考慮,應該實驗“機械法”。不用閱讀校對,而要改造一個軟件,將所錄之文按被錄之文的文本格式、字體(大於90%相像)排印出,然後在透光的桌子上(相當於照相館看底片者)機械核對,錯一個字,上下就對不上,馬上就能發現。這種核對無需文字、學術水平,只要系統精密,(理論上)最普通的打字員都可以錄100%準確的數據庫。而遇有改字、斷句之類,則又有最高水平如孫欽善、裘錫圭這樣的老師來定奪,可一舉全改數據庫錄入的工作質量。

在北大的討論會上,有一位計算機系的老師提出要做一個比臺灣《二十五史》更好的數據庫。我認為數據庫既是天下公事,不比如體育比賽,如果想做一個好的,首先要使用已有的,看它差在哪裡。臺灣《二十五史》使用的是目前最佳的中華書局原本,並投資幾億元,好幾個專家獻身於此十幾年如一日;而且全世界的使用者不斷為它反饋使用改進意見,他們定期增補修改,再為所有用戶更新。我一直在會上會下問:我們北大為什麼不用?(現在中文系有一套可供內部使用。)如果北大有心,可以通過購買、交換、合作、索求,使用天下所有數據庫,並大量補充天下所無文獻!針對各個數據庫檢索方法互異而且繁複的缺點,設計套用軟件,使天下所有數據庫在北大可以統一使用,成為一個完整的數據庫。如果發現的確其中有有待重做者,請專家選擇善本,以機械校對法增補之。為國家數據庫的開拓“兼併天下”,才不枉為中國第一大學。

但是,如果以為有了中文古文獻全文數據庫,就一定能提高研究的質量,那就大錯而特錯。有時我特別注意有些西方漢學家用數據庫,找一些字義和詞式加以排列對比,統計核實,經常把一個字的不同的意義強聯在一起,又把同義而假借,訛變為不同的字遺漏不計,並持統計結果為確證,真不如不曾給他數據庫!否則他還可以反覆玩味文意,不致簡誕如此。數據庫對中國人文科學的最根本的質量改變在於解脫了呆板記問之學,凸顯出對於分析、求證和解釋的追求,使中國國學重在實驗、驗證、設計和研究,而不是老在數據記憶比賽中掩蓋對人性根本的追問。

有了數據庫,學人不是不要讀原文,而是更要通讀原文。利用數據庫,一邊讀,一邊可以周密地反覆溫習。楊樹達先生的以經訓經,人皆可達,而且演化為讀書常法。沒有數據庫時,常常記得少則無從複查,記得多則拖累創思。

有了數據庫,文字學功夫就提到使用者面前,越能識得變體、異體、俗體、古今體,越能讀破假借字,就越會使用數據。音韻學功夫也提前,識得古音,深知省音、轉音、方音,就可以利用數據庫充分稽查檢閱文獻。

既如此,請時刻準備著接受這個國學的飛躍!”

(《1999年的數字人文工作》,發表於《十九札》2000年版)

附錄2 :2000年發表的“網相語”概念

八)網相語

今天在北京大學我們在做什麼呢?現代書法從無錫實驗到北大,現代又到達了一個新的時代。問題改變了,人也改變了。彭俊軍已經研究生畢業,施傑已成為新一代現代藝術學會的會長。

我們依舊在追問書法的本質到底是什麼。書法不就是用一種語言形象性地傳達出人的信息嗎?

於是新的探索被稱作“網相語”,它是在計算機系統上尋找語言新的結構、新的語法、新的概念。它要恢復語言在形成書面文字和口頭言說之前的原思維狀態,即一種在感受和思維狀態下的圖像和概念的綜合體。概念又同時呈現出不停分化、演進和持續計算、自動更新的過程。新的一代藝術家已經在計算機網絡的新條件下開始了現代書法的新實驗。它不僅在中國是一個新的創舉,而且在世界的範圍內可能改變網絡時代傳達的方法。它不再跟傳統書法有什麼表面的聯繫,而是要追問一個根本的問題:“書法如何成其為書法?”書法不再是一片紙片,也不再是一個人體、一個牌匾,當然也不再成其為一個行為或一個觀念,而是一個項目、一個希望,因為它承載著書法的根本境界——人的交流和傳播。(朱青生,《從無錫到北大——我所經歷的現代書法試驗》,載《現代書法》2000年第3-4期)

附錄3:國際藝術史學會的全球數據庫計劃

但是僅有這樣的聯繫還不足以發揮藝術史的獨一無二的優長。在歷史上,我們把與自我形象和現象的不同視為珍稀的寶貝,把他人的寶藏當成藝術的美感來欣賞,差異使我們互相觀照和傾慕。而現在,隨著圖像時代的到來,圖像這個既與語言文字相異,又與考古的事物和遺蹟並存的專門的行業,突然在我們眼前平鋪出一道交流的坦途和奇景。也許我們還一直被另外一個希望鼓舞:在若干年前,國際藝術史學會理事會再度提出來,希望用新技術來推進一個全世界共建、共享的圖像數據庫。過去這對我們的前輩來說是一個幻想抑或是妄想,但是現在區塊鏈的技術,5G、6G的傳播能力和量子計算的新的通訊方法能讓圖像數據庫不再是一處的人做完以後再去互相分享,而是一處的人做而所有的相關者都能同時得到和擁有,這樣的新技術將會減少圖像因儲存和傳輸而產生的許多障礙,只要我們願意,就能共有。在藝術史研究中,如果我們沒有對所有的圖像的充分全部的獲得與把握,可能我們所做的研究永遠只是一個“個案”,而對於重要的問題,如果沒有所有圖像間相互的關聯,就無法進行全面的判斷。每次讀到前輩和同事們寫的書,我都敬佩他們為了一些材料和信息而攀爬於大漠江河之間,沉浸在古籍之中、孤燈之下,但總還感覺到他們的忐忑。由於地理、政治和意識形態的原因,還是有許多相關的圖像材料沒有被看到,還是有一些知識和常識沒有能夠被掌握。但是如果我們有了共同的聯繫,有了一人做成同時就能讓所有的人分有的圖像數據庫,合在一起,不久或者終有一天,就能在全部圖像數據的基礎上對某一個問題進行討論,解決一些重大的問題才成為可能。(朱青生《國際藝術史學會2020新年賀詞》)


分享到:


相關文章: