超強AI人工智能寫作文突破語言系統限制可簡易閱讀理解頭條網

2020-12-22 16:20:48 佚名

語言人工智能技術再有突破，專研人工智能（AI）的非牟利機構OpenAI，前日發佈文字產生器GPT2初階成果，它突破同類語言系統限制，可在數秒作簡易閱讀理解、繙譯，甚至流暢地為名著和新聞續句。由於它太厲害，容易被濫用作假新聞和垃圾訊息，研究團隊決定暫不公開完整藍圖。

輸入字句推測意思

根據官方資料，GPT2是按它從大熱討論區Reddit「閱讀」過的800萬篇文章作數據基礎，在用戶輸入字句後，系統推測原句意思，然後逐個字接續句子。研究員說，GPT2在多項測試中表現都超越同類AI系統，例如在理解文法虛詞的威諾格拉德測試（Winograd Schema Test）中得分70.7%，比上一代系統高7個百分點，連接上文下理的蘭巴達測試（LAMBADA）中得分則達人類的2/3，達63.24%，比上一代系統高7個百分點；句子流暢度方面，童書測試（Children's Book Test）亦顯示GPT2表現接近人類的水平。

OpenAI研究總監阿莫迪（Dario Amodei）說，從研究角度看GPT2研發有兩大突破，一是它規模最大，「系統模式大12倍、數據庫廣大15倍」，文本數據多達40GB；第二是質素提升，數據增多意味系統更能「理解」一般行文的結構和邏輯，用途更廣泛，除了作句，還可用於繙譯和撮寫等。

英國《衛報》記者實測時，輸入歐威爾名著《1984》頭兩句，GPT2就察覺到句中未來感和小說文體，續上一段科幻式文字；而當輸入幾段有關脫歐的報道時，系統更自由創作一篇新聞報道，「引述」首相文翠珊說她會「根據上週女皇演說確認的談判授權，儘快脫離歐盟」。

暫不公開完整藍本

但據科技網站The Register實測，現階GPT2段撰文的英語字限約在數百字內，文章越長，標點誤用、邏輯怪異和離題的破綻越多。輸入簡單問題：「甚麼是狗？」GPT2從數據庫得出頭頭是道的結論：「根據動物團體，它是家居犬，一種10至28磅重的大型哺乳動物，可作獵犬或保護犬……」但回應開放式問題如：「你覺得（facebook創辦人）朱克伯格為人怎樣？」系統就答得似是而非：「他還有未來嗎？他看來像笨蛋；他買得起遊艇這個事實讓我憂心。」

由於欠缺分析和過濾功能，OpenAI短期內不會公開完整藍本，會先研究清楚其伸延影響，以免被不法之徒用以傳播不實消息，包括假新聞、陰謀論及購物假評論等。公司政策負責人克拉克（Jack Clark）形容現時的GPT2系統有如「通往地獄的升降機」：「我們需要做更多實驗，找出系統的能耐和限制。」