國外科學家使用深度學習還原古代文字代碼開源


下面這張圖是考古中發現的一塊損壞的銘文:關於一項關於雅典衛城的法令(公元前485/4)。


國外科學家使用深度學習還原古代文字代碼開源



概述

深度學習可以幫助學者恢復古希臘文字。

牛津大學的研究人員(Thea Sommerschield和喬納森·普拉格教授)和DeepMind的研究人員(Yannis Assael)建立了Pythia,訓練了神經網絡來猜測希臘銘文中缺少的單詞或字符。

它們在包括石材,陶瓷和金屬的表面上。他們年齡在1500至2600年之間。最新報告可以看到人工智能在破譯受損藥片方面也擊敗了人類。

“在面對面的測試中,人工智能試圖填補2949個受損銘文中的空白,人類專家所犯的錯誤比人工智能多30%。而專家們花了2個小時才獲得了50個銘文,Pythia給出了猜測整個隊列只需幾秒鐘。”

從一開始,作者就知道恢復文本是一項耗時的任務,甚至對於專家級的詞學家來說也是如此。他們著手在兩名具有表象專業知識的博士生的幫助下,評估手頭修復任務的難度,從而判斷我們工作的影響。允許學者使用訓練集搜索“相似”。

在填充遺漏的單詞方面,人工智能似乎比人類更好,但這不是A隊與B隊的競爭。相反,人工智能技術“可能是最有用的協作工具,研究人員可以使用它來縮小選擇範圍。”

幾個世紀以來,許多古老的禁忌已經被侵蝕或破壞。作者說:“只有一小部分尚存的銘文是完全清晰和完整的。”

在文本片段丟失的情況下,如何嘗試填補遺漏單詞的空白?正如作者所說,這意味著要看其餘的銘文並看其他類似的文字。

生成PHI-ML

由於數字化人口統計語料的可用性,PYTHIA已接受過古希臘文字(以下簡稱“ AG”)銘文的訓練。作者選擇AG題詞作為案例研究有兩個原因:

a)內容的可變性AG歷史記錄的背景使之成為現實NLP面臨的巨大挑戰;b)數位AG文本語料庫最近已創建,最大的是PHI(The Packard Humanities研究所

恢復損壞的AG銘文時,碑文學家對總數的猜想缺少的字符由語法和語法上的考慮,以及碑文的重構圖形佈局。猜想的丟失字符通常是標有連字符,一連字符等於一個缺少字符。

此外,碑文學家傳統上會將經編輯的文本轉換為小寫字母,加上標點符號和變音符號,這通常是原始銘文所沒有的。這些PHI中也使用了約定。

因為PHI中的人類註釋很雜並且在語法上常常不一致,作者編寫了一個管道將其轉換為機器可操作文本。

我們首先計算字符頻率並標準化AG字母以包括所有核心字符,包括所有重音符號(147個字符),數字,空格和標點符號。引入了兩個附加字符:“-”代表丟失字符,“?”表示要預測的字符。然後,我們編寫了正則表達式來替換出現在帶0的文本以避免數值相關,帶狀其餘的標點符號,刪除某些字符周圍的常規字母符號(“ Leiden約定”),並丟棄內容不是希臘文的註釋。然後著手清除人的意見,修復標點符號的間隔和大小寫,並過濾了結果文本,以便僅保留受限制的字母字符。課文少於100個字符的字符也將被丟棄。最後,我們匹配了失蹤人數文字學家所猜想的人物,從而將長度值轉換為相等“-”符號的數量。所得數據集名為PHI-ML,並且由超過320萬個單詞組成(表1)。PHI ID以{3,4}結尾的題詞(PHI中的每個題詞都分配有唯一創建原始語料庫時的標識符)保留並分別用作測試和驗證集。


國外科學家使用深度學習還原古代文字代碼開源



背景的重要性

上下文信息的存在是影響人口統計學還原的準確性的決定性因素。因此,我們評估了不同文本長度作為增強上下文對文本的影響

PYTHIA的前20位準確性度量。可以

從下圖可以看出,“上下文長度”和預測性能我們的模型是積極的。

具體來說,性能在上下文的500個字符左右達到峰值長度。此外,圖中舉例說明了當僅提供了較短的上下文長度(例如20個字符)。

後一種情況回想起了字符串匹配和“並行”搜索方法所遇到的類似困難,其中搜索查詢通常會很短。


國外科學家使用深度學習還原古代文字代碼開源



有關於AI稱為Pythia的功能的報告:(1)Pythia學會了識別35,000個文物中的模式,超過300萬個單詞。(2)它選擇的模式包括出現不同單詞的上下文,語法以及銘文的形狀和佈局。

為了幫助碑文學家,畢生不僅僅給學者一個預言。而是返回多個預測以及每個結果的置信度。

方法評估

因為文字還原即使對於專家級的地名學家,我們著手評估手頭修復任務的難度-因此在以下人員的幫助下判斷我們工作的影響兩名具有統計學專業的博士生。允許學者們使用訓練集搜索“相似”,並取平均值2小時內完成50次修復,特徵為57.3%錯誤率(CER)。LM生理學。評估性能使用“平行”模型,我們訓練了LM。由於文本的大部分出現亂碼,因此完全無法識別的單詞,並且因為BERT不是一個選項,所以LM在字符級別工作並且基於Zaremba等人的設置。

LM接受了兩次訓練較大的文學AG文本(“語言學”),First1KGreek和Perseus的數字語料庫,並進行了評估在PHI-ML上。LM心理學與史詩。LM聯合受過First1KGreek,Perseus和PHI-ML的培訓。LM史詩。LM對PHI-ML進行了培訓,PYTHIA-UNI。消融架構,使用僅字符作為輸入和單向LSTM,PYTHIA-BI。與PYTHIA-UNI消融相似,但具有雙向LSTM。PYTHIA-BI-WORD。這是我們建議的模型選擇,它使用雙向LSTM和字符和單詞作為輸入。


國外科學家使用深度學習還原古代文字代碼開源




國外科學家使用深度學習還原古代文字代碼開源



結論

PYTHIA是第一個古代文字恢復模型同類的。我們的實驗評估和消融研究證明了我們設計的有效性做出決定,並闡明PYTHIA的方法協助,指導和推進古代歷史學家的任務-和適當的數字人文學科。

機器學習和碑文的結合具有可能對古代和現代文字文化的研究產生有意義的影響。通過開放採購PYTHIA和PHI-ML的處理流程,我們希望有助於未來的研究並激發進一步的跨學科工作。

論文地址:

https://arxiv.org/pdf/1910.06262.pdf


分享到:


相關文章: