託福寫作機器批改中的人工智能應用


託福寫作機器批改中的人工智能應用

託福寫作機器批改中的人工智能應用

ETS設計託福獨立寫作之初,是想通過這種以文章為基礎(essay-based)的測試鼓勵學生對話題有更好的概念性理解(a better conceptual understanding of the material), 例如教育教學,科技發展,環境保護,以及生活態度等,從而反映出大家對於知識和應用水平的更深層次理解( reflect a deeper, more useful level of knowledge and application by students)。

因此,ETS對考生託福作文進行評分和提出修改意見,不僅是一種評估方法,而且是一種反饋手段(not only as an assessment method, but also as a feedback device to help students),有助於學生更好地學習托福考試的話題內容,進行有效的獨立思維和批判式思維訓練,更是對寫作技能的整體提升。

但是,隨著託福全球考生數量的激增,ETS很難找到足夠訓練有素的托福考官來完成規定時間內的閱卷工作。當考官工作量過大時,也會出現打分的不正常波動,影響打分的客觀性和準確性,機器閱卷(E-Rater)就此誕生。

ETS的E-Rater在項目啟動之初就採用了學術界最前沿的人工智能技術,並與普林斯頓大學、賓夕法尼亞大學、哈佛大學一起建立了研發中心。ETS幾十年沉澱的海量數據與頂尖院校研究員的智慧相結合,尤其是在近幾年深度機器學習(Deep Learning)的幫助下,託福機器閱卷的評分效力已經可以媲美甚至超過一名經過專業訓練的托福考官。

今天這篇文章,我會給大家介紹託福寫作機器批改中的人工智能應用。

託福寫作機器批改中的人工智能應用

E-rater通過計算機數據功能對於考生寫作文本的相關信息進行一定的標籤匹配,結合ETS的過往的寫作數據庫來審核考生的寫作質量。它利用的是計算機語言學中的自然語言處理(Natural Language Process,簡稱NLP)方法。

其中E-rater比較擅長捕捉的是考生的語言使用,E-rater系統將考生考場作文的語言與數據庫中不同分數段的文章的語言進行比對,判斷考生的寫作語言質量;

同時,E-rater還可以通過檢測邏輯連接詞的使用來大致判斷考生文章的邏輯銜接情況,通過匹配主題關鍵詞來檢測考試的文章發展是否出現跑題。

簡單來說,像手機軟件“唱吧”一樣,E-rater就是把考生的作文與數據庫裡的文章進行比對,從而給出系統判斷的分數。

目前的確直接使用計算機評分(computer-based assessment)的評測考試暫未完全普及,主要原因是目前的機評主要是通過統計方法(a statistical approach)分析來自該話題/領域的文章和內容信息。當然目前的計算機技術可以對考生們的託福寫作進行直接打分,從而證明這種系統的統計方法是對文章質量的準確衡量(the quality of essays)。

託福寫作機器批改中的人工智能應用

目前普遍使用的計算機評分機制的文本分析是基於潛在語義分析(Latent Semantic Analysis -LSA)。對LSA的詳細處理,無論是作為人類知識獲取和表達方面的理論,還是作為文本語義內容提取的方法,目前都是心理學,應用語言學等領域廣泛研究的課題。同時,許多認知心理學和語言學現象的模擬也顯示,LSA能夠通過統計學的方式捕捉到大量在話語中表達的意義的相似性(captures a great deal of the similarity of meanings expressed in discourse)。

LSA所做的相似性比較是通過比較文章之間的意義相似性(through comparing the similarity of meaning between essays)來實現自動評分的基礎。這就是為什麼阿倫老師在進行託福寫作月計劃課程中一直強調學生們要熟練運用“託福獨立寫作高分素材集”的原因。

“託福獨立寫作高分素材集”是通過歷年託福獨立寫作高頻話題的詞與語篇彙集在一定的話題空間中。讓考生們在寫作備考中高強度地模仿託福寫作考試所要求的語言表達特徵。這也是為什麼不少同學都在一個階段的課程以及講義相結合的過程中可以最終實現25+的託福寫作成績。

託福寫作機器批改中的人工智能應用

早期的機器批改主要集中在文章的系統特徵上(mechanical features),例如文章的語法、拼寫和標點符號問題。但大家都知道寫作一篇好文章還涉及其他因素。例如,在抽象層次上(abstract level),我們可以區分學生論文的三個值得評估的屬性:

1. 對包含的概念知識的正確性和完整性; (the correctness and completeness of its contained conceptual knowledge);

2. 在論述寫作話題時所提出論點的合理性; (the soundness of arguments that it presents in discussion of issues)

3. 寫作的流暢性、優雅性和可理解性(he fluency, elegance, and comprehensibility of its writing.);

對於顯性的語法特徵和句法特徵的評價很容易通過計算機進行實現。但其他因素:文章內容、論點、可理解性和文字風格就很難進行可測量的評估,因為它們相互影響,哪怕只是一個細小的選詞問題,這也成為了早期E-rater功能再怎麼強大,也是ETS決定以人工閱卷模型來進行最終評分的主要原因。

因為早期的E-rater主要集中在對文章進行評分的計算方法上,針對文章內容的評分系數仍然屬於次要的、間接的評分因素。在經歷一段時間的技術迭代之後,LSA方法開始成為被認可的評分機制。就是因為LSA方法關注的是概念內容(the conceptual content)、文章所傳達的知識(the knowledge conveyed in an essay)。

為了評估論文的質量,LSA首先對領域代表性文本進行訓練。基於此訓練,LSA導出域中包含的信息的表示。然後,學生論文的特點是基於所有單詞的組合的LSA向量。然後,可以將這些向量與散文或具有已知內容質量的文本的向量進行比較。這兩個向量之間的夾角代表了這兩篇文章討論相似信息的程度。例如,未評分的文章可以與已經評分的文章相比較。如果兩篇文章的角度很小,那麼這些文章的內容應該相似。因此,可以比較兩篇文章的語義或概念內容,並根據它們的相似性得出分數。請注意,兩篇文章可以被視為內容幾乎相同,即使它們包含很少或沒有相同的詞,只要它們表達相同的意思。

隨著語言學家們不斷結合深度學習,專家們認為深度編碼的特徵(E-rater)和手動批改(human rater)的功能相結合才是有效的自動作文評分(Automated Essay Scoring)系統。

專家們因此設計了兩階段學習框架(TSLF),它結合了功能模型(feature-engineered models)和點對點模型(end-to-end models)。如圖所示:在圖1中,在第一階段,計算機可以計算得出語義得分Se,一致性得分Ce,輸入相關得分Pe。在第二階段,這三個分數和一些手動批改的功能被連接起來並被編碼到一個上升模型進行進一步的係數計算。

託福寫作機器批改中的人工智能應用

隨著語言學家們不斷結合深度學習,專家們認為深度編碼的特徵(E-rater)和手動批改(human rater)的功能相結合才是有效的自動作文評分(Automated Essay Scoring)系統。


專家們因此設計了兩階段學習框架(TSLF),它結合了功能模型(feature-engineered models)和點對點模型(end-to-end models)。如圖所示:在圖1中,在第一階段,計算機可以計算得出語義得分Se,一致性得分Ce,輸入相關得分Pe。在第二階段,這三個分數和一些手動批改的功能被連接起來並被編碼到一個上升模型進行進一步的係數計算。

在Table 1中,專家們列舉出了手動批改(human rater)的潛在機制:

託福寫作機器批改中的人工智能應用

1. 語法錯誤數;

2. 文章長度;

3. 單詞長度的均值和方差;

4. 句子長度的均值和方差;

5. 寫作文章中的從句數量;

6. 寫作文章中的詞彙量;

直覺上,大家會認為語法錯誤多基本就是寫作高分的主要原因。但是,通過數據分析,我們發現寫作最低分通常是因為字數嚴重不足而造成。因此,基於長度的特徵是大家在進行寫作練習是務必要考慮的因素。關於字句的複雜性,這是阿倫老師在課上一直給大家強調的句子多樣性和複雜性的要求。如果大家想要進一步去了解Language Use的細節,建議大家去閱讀《託福官方指南(第5版)》第669頁到731頁的第10章Writer’s Handbook for English Language Learners的具體內容。

託福寫作機器批改中的人工智能應用

人工智能對於很多行業的改變是顛覆式的,連語言學習和測評這塊硬骨頭都被ETS啃下來了。但是無論是人工批改還是機器評分,對於托福考生的語言要求是一致的,只要大家用心備考,紮實提高自己的英語寫作能力,高分終歸是你的。

託福寫作機器批改中的人工智能應用

更多精彩內容請關注教書匠阿倫!


分享到:


相關文章: