AI評分機器人,標準化考試的自動評分系統

AI評分機器人,標準化考試的自動評分系統

阿克倫大學的一份新聞稿稱,“電腦閱卷的準確度幾乎與人工完全相同,事實證明在某些情況下機器比人更加可靠”。

不可否認,人工智能評分機器人在某些條件下確實超出人類判卷的能力,而評卷更多的是基於規則題庫的,就是機器根本不需要思考,僅靠標準答案就可以識別對錯的,比如選擇題。這就更加準確更加快速,所以很早以前,我們已經開始採取機器判卷+人工判卷的方式,比如選擇題由機器判卷,作文等需要人為思考判斷的採用人工判卷。

隨著技術的發展,大數據人工智能領域技術的不斷完善,讓機器閱讀作文評判好壞已經具備了基礎前提,其實我們的老師(人工)判卷時也未必每篇都詳細閱讀,他們也是先看規則。我們知道考試的作文或者答案,是具備一定規則的,比如簡單的規則:字數大於1000字,首尾呼應,有複雜的句型,引經據典等等。這就提供了機器判卷的基礎維度,但機器通過深度學習後,會形成機器自己的評判規則,來識別什麼是好的文章,比如:機器通過大量的數據發現,一個好句子大多擁有有多少個字、一個好段落通常會有多少個句子,通常結構不完整的句子數量在全文佔比低於多少比較正常,對待一個觀點有沒有引用等等。

這時我們只要確認它識別出來的準確度就可以了。這樣實現的評分系統,速度更快,而且相對公平。為了證明機器判卷的準確性,猶他州教育委員會的評估發展協調員Cyndee Carter說,開始的時候他們非常謹慎,每一篇機器評分的文章同時也由老師審閱過。

但電腦評分被證明了是“準確的”,所以猶他州現在讓機器成為絕大多數文章的唯一裁判。

一旦準確度被認可,那麼機器判卷的優勢非常明顯,比如國外Pearson教育集團數據顯示,人工閱卷最快的速度,閱卷人在每篇作文上最多隻花兩三分鐘,平均1小時為30篇作文打分。而從事美國教育考試服務中心(E.T.S.)研究部主任大衛•威廉姆森(David Williamson)表示,該中心開發的自動化閱卷機 “電子評分器”(e-Rater)可以在 20 秒內評閱 1.6 萬篇作文。

AI評分機器人,標準化考試的自動評分系統

這就形成了強烈的對比,僅在速度上已經完勝傳統的人工評卷方式。

但這就真的證明機器閱卷可以代替人工閱卷了嗎?

然而,很多人並不認同。

“寫作是一種藝術,而用算法來評估這種表達形式顯然是荒謬的。”一位高中英語教師這樣評論。

“人可以欣賞具有創造性的文章,機器將錯過這些精彩的內容,比如:詩歌”一位文學愛好者同樣質疑著。

當然,這些質疑確實值得我們思考,但都不是機器絕對做不到的,我們通過大數據思維去看這件事情,還是值得去探索的。

當下最大的質疑在於,我們人類仍然比機器聰明,假設我們的學生在寫作文前,能夠深度瞭解判卷教師的喜好,我相信他一定寫出分數較高的作文。

而對於自動判卷機器,我們的學生或者我們的應試教育似乎會變得更加聰明,他們會造出高分作文模版,尋找高分攻略。他們會挖掘機器的規則,比如:機器對長文章評分可能更高,那麼我們的學生可能會把經歷放到發現這些特徵上來,這就違背了我們教育的初衷。

甚至,自動評分的常年批判者Les Perelman,還設計了一種反機器判卷的程序用來揭露機器判卷的弱點和荒謬。這個“Babel”生成器("Basic Automatic B.S. Essay Language")的工作原理就像電腦上的文字遊戲--米德比里斯(Mad Libs)一樣,能夠創造出毫無意義卻可以從機器評分那兒獲得高分的文章。

但對於機器判卷的程序來說,內容不重要,依舊可以得到高分。

這也說明了一個道理,一個出色的文學家,未必能夠寫出高分的作文。

雖然這樣,我們研究機器判卷仍是一個趨勢,並且隨著人工智能技術不斷的成熟,數據質量不斷的提高,機器正努力的學習著,變得越來越聰明。

但不可否認,他還需要更久的時間。

AI評分機器人,標準化考試的自動評分系統


分享到:


相關文章: