人工智能:破解梵蒂岡神祕卷宗之謎

梵蒂岡秘密檔案館可謂全球最偉大的歷史藏品之一,但同時也身兼最無價值藏品的“桂冠”。

這座恢宏的建築坐落在梵蒂岡城牆之內,毗鄰使徒圖書館、位於西斯廷大教堂北側,擁有著可追溯於1200年之前的總長達53英里的書架。除了將Martin Luther逐出教會的《教皇詔書》之外,其中還包括蘇格蘭瑪麗女王被處決之前發給教皇西克斯五世的函件。在規模與範圍方面,其中的收藏幾乎著稱無與倫比。

人工智能:破解梵蒂岡神秘卷宗之謎

然而,梵蒂岡秘密檔案館對現代學者卻沒多大現實意義。因為在這長達53英里的書架當中,只有極少數書頁經過掃描以提供在線版本,這當中的一小部分轉錄為計算機文本以供內容搜索。如果我們打算閱讀其它任何內容,則必須申請特殊的訪問權限,一路前往羅馬,並親自動手翻開這些古籍。

不過新的項目可能會改變這一切。此項目名為Codice Ratio,旨在利用人工智能與光學字符識別(簡稱OCR)軟件的組合重現這些被忽視的文本,並將其重新呈現在世人面前。如果成功,這項技術還將被用於處理世界各地其它歷史檔案庫當中數不勝數的其它記錄文件。

多年以來,人們一直在使用OCR技術掃描書籍及其它印刷文檔,但其並不適合秘密檔案中的素材。傳統OCR技術通過查找字母間的空格將單詞分解成一系列字母圖像,而後將各個字母圖像與記憶中的字母庫進行比較。在確定與圖像內容最匹配的字母之後,軟件會將該字母轉譯為計算機代碼(ASCII碼),從而創建可搜索文本。

然而,這一過程只適用於經過嚴格排版的文字。其在處理一切手寫內容時都表現得相當糟糕,而梵蒂岡秘密檔案館中的絕大多數文件皆以手寫卷宗形式存在。下圖所示即為其中一例——十二世紀早期使用卡羅琳小寫字母的文本,看起來像是書法加藝術體的混合產物:

人工智能:破解梵蒂岡神秘卷宗之謎

從上例中可以看到,其中最大的問題是字母之間缺少間隔空間(即髒分割)。OCR無法知曉單詞從哪個字母開始、又到哪個字母截止,因此其不能分辨具體的字母數量。這就造成了計算層面的僵局,亦被稱為塞爾悖論:OCR羅技需要在識別之前將單詞分割成獨立的字母,但在字母彼此相連的手寫文本當中,軟件需要首先識別字母才能完成分割——死循環。

一部分計算機科學家試圖開發出能夠識別整體單詞——而非字母——的OCR軟件以解決這個難題。其在技術層面確實具有可行性,因為計算機並不“關心”其分析的是單詞還是字母。但讓這類系統實現正常運轉卻非常困難,因為其需要龐大的記憶庫。這些系統需要識別的不再是數十個字母,而是成千上萬個常用單詞的圖像。這意味著需要大量具有中世紀拉丁文專業知識的學者通過舊文件整理出各個單詞的圖像,且每一單詞至少需要數張圖片方可解釋手寫變形或者由照明條件改變引發的其它變化。很明顯,這是一項艱鉅的任務。

在Codice Ratio項目中,一種新的手寫OCR方法成功解決了上述問題。該項目背後的四位主要科學家——羅馬第三大學的Paolo Merialdo、Donatella Firmani、Elena Nieddu以及來自梵蒂岡秘密檔案館的Marco Maiorino希望利用拼圖分割方法解決塞爾悖論。正如該團隊在最近的一篇論文中所闡述,其處理流程不會將單詞拆分成字母,而是將其理解為一種單筆筆劃。此OCR會將每個單詞劃分為一系列垂直與水平的條帶,再尋找其中的局部最小值(即墨跡較小或像素較少的部分)以完成分割。在此之後,該軟件會進一步進行字母繪製,並最終生成以下一系列拼圖碎片:

人工智能:破解梵蒂岡神秘卷宗之謎

這些拼圖碎片本身作用不大,但該軟件能夠將其通過多種方式組合起來以生成可能的字母。具體來講,軟件只需要知曉哪些組塊代表真實的字母,而哪些只是連筆造成的假象即可。

為了教會軟件這項能力,研究人員們選擇了不同尋常的導師——高中生。該團隊在意大利的24所學校當中招募了一批高中生用於建立項目的記憶庫。學生們在登錄相關網站後,會看到如下圖所示的三分屏幕界面:

人工智能:破解梵蒂岡神秘卷宗之謎

頂部的綠色欄內包含漂亮、整潔的中世紀拉丁文字母——在圖中為字母g。中間的紅色欄代表看似g但並非g的易混淆示例,下方網格則為程序主體。每張圖片都由OCR軟件利用幾塊拼圖組成,並對其內容作出判斷。學生們的工作是判斷OCR的結論,告訴其哪些猜測正確、哪些猜測錯誤。學生們需要將每幅圖像與柏拉圖式的完美綠色字母進行比較,並點擊複選框輸入自己的結果。

通過一次次點擊,學生們努力教授該軟件如何識別22箇中世紀拉丁字母(a-i,l-u,以及s與d的某些替代形式)。

這套方案的起步階段需要專家參與,幫助選擇完美的綠色字母示例以及紅色的混淆示例。但在完成之後,他們就不再需要跟進。事實上,學生們甚至不需要了解拉丁文——他們的工作只是匹配視覺模式。Codice Ratio項目的Merialdo表示,起初人們覺得讓高中生參與進來是個愚蠢的主意。然而,現在機器已經開始學習,而且多虧了他們的努力,犈證明了許多人做出的小小簡單貢獻也能夠解決複雜的難題。

當然,最終學生們也不再需要參與其中。當訓練進行到一定階段之後,該軟件即可獨立拼圖,並自行判斷字母的具體位置。這,正是人工智能的價值所在。

在另一方面,這也證明單靠拼圖碎片還不足以組合出正確的字母。計算機仍然需要額外的幫助才能破解手寫文本的秘密。想象一下,大家正在讀信,並在其中看到下面這句:

人工智能:破解梵蒂岡神秘卷宗之謎

中間的單詞到底是“clear”還是“dear”?很難判斷,因為“d”與“cl”的筆畫構成實際上完全相同。OCR軟件也面臨著同樣的問題,特別是在處理高度風格化的文本時更是如此。以下圖為例:

人工智能:破解梵蒂岡神秘卷宗之謎

在經過不同的拼圖組合之後,OCR認為可能的選項包括aimo、amio、aniio、aiino甚至是aiiiio。但這個詞實際上是anno,也就是拉丁語中的年。該軟件認準了a和o,但卻弄不清中間的四個豎到底該如何劃分。

為了解決這個問題,Codice Ratio團隊不得不為自己的軟件提供一些常識性的知識。他們建立起一套包含150萬個經過數字化的拉丁詞彙語料庫,並對其中的雙字母與三字母組合進行了檢查。通過這種方式,他們確定了哪些字母組合較為常見,而哪些永遠不會出現。通過將這些統計信息提供給OCR軟件,其能夠了解到不同字符串的具體出現概率,從而意識到nn比iiii的可能性高得多。

隨著這樣的改進,OCR終於能夠自行閱讀部分文本了。該團隊決定為其提供一些來自梵蒂岡秘密歸案館的資料。這是一份超過18000頁的檔案集合,其中包括寫給歐洲國王的信件、關於法律問題的裁決以及其它信件。

最初的結果有好有壞。在迄今為止的全部轉錄文本中,有三分之一文檔中包含一處或多處拼寫錯誤——意味著OCR作出了錯誤的判斷。然而,該軟件仍然帶來了高達96%的手寫字母判斷準確率。Merialdo表示,即使是“不完美的轉錄結果,亦可提供關於手稿內容及背景的大量有價值信息。”


分享到:


相關文章: