本文約1500字,建議閱讀6分鐘。
人工智能技術應用化日益推進,這次是AI對聯。
A:天對地,雨對風。B:大陸對長空。這我也會。A:那你出一個我給你對。B:辣條對什麼?A:額,沒學過,我先問問AI。B:問出來了麼?對聯秀,開場
AI說,辣條對香茗。
這是一位名叫王斌的有志青年,開發的對聯AI。
出爐之後,網友一股腦兒的都去調戲AI,網站甚至一度要掛。
我也出個認真的上聯,考一考它:
突發現場:不會數數
不不不,認真的是這個:
有道理,梅花開的時節確實不一樣。另外,平仄也講究。
增加難度,上聯出個有斷句的:
山可透光,水不染塵,好一個清明的世界。
如果再配上山花爛漫:
來啊,快活啊。老司機啊,動車駕照拿好了嗎?(誤)
相信我,開車是個意外。
要成為一名德智體全面發展的AI,除了對詩文,也要常練武。
先來一招,猛虎硬爬山:
名對名,動對動,形對形。矮又與高相映成趣,周全了。
不過,這意思是不想起床?
那可不行,再來一招烏鴉坐飛機。
這次是坐起來了。但好像也坐得太穩了,菩薩啊。
唉,不愛動就躺著吧,十年一覺揚州夢。
阿嘞?這樣居然跑起來了,還不是短跑。
體能優異,又有愛國之心,成為棟樑之才指日可待。
不過,他日擔當國之大任,還需對人工智能領域擁有清晰的認識,並且掌握專業知識:
額,還是謙虛一點比較好吧。
下面來考學術概念:無監督學習、線性迴歸、自然語言處理、向量,以及詞嵌入。
有法可依;
民心歸之;
人生平淡;
不想加班;
我在問詞嵌入,你怎麼喝上了?
那就趁著微醺,考察一下對學界和產業界的瞭解吧:
對學術前輩懷有敬畏之情,孺子可教。
伯克利......收回剛才的表揚。
這是說萬古流芳的意思麼?
你到底信佛還是信道?
好的,你醉了,明天再考。
打哪兒來的AI
這個AI的訓練,基於深度學習seq2seq模型,用到了TensorFlow和Python 3.6,代碼已經開源,你可以自行到文末傳送門找到GitHub頁面下載開源代碼嘗試訓練。
目前的對聯水平,是在Nivida GTX-1080 GPU上訓練了大約4天左右的模型。
不過,這個AI對對聯的表現還是要看它的“課本”。訓練它所用的數據集來自一位名為馮重樸_梨味齋散葉的博主的新浪博客,總共包含超過70萬副對聯。
然而,由於我們不知道的原因,這位博主的博客已經無法訪問了……
好在,我們還有萬能的度娘,度娘在博客彌留之際留下了一些快照,我們發現,這是這位博主編輯的一部名為《聯語雜醬麵》的書。
看一看這些珍貴的史料,或許你就明白了上面對聯AI的文風是怎樣習得的了。
另外,博主本人還po出了該系列的目錄:
全文不含標點15,153,840字,如果每天看100條的話,22年都看不完。
然而英偉達的GPU四天就看完了……
看完了……
完了……
還有微軟的對聯AI
我們今天的對聯AI作者是一位名叫王斌的小哥哥,本科畢業於黑龍江大學計算機專業,幾年後又到英國萊斯特大學讀計算機碩士,現在是一名軟件工程師。
除了王斌的對聯AI之外,AI對聯界還有一個著名的作品,來自大名鼎鼎的微軟亞洲研究院,是十餘年前沈向洋主導的一個研究項目。
微軟的對聯AI要謹慎且複雜一點,即使你填“辣條”作為上聯,它也會給你許多個下聯。
還能生成橫批。
微軟的研究其實是個古董,2004年沈向洋就提出要做自動對聯,第二年的春節就已經申請下了專利。
對聯AI的第一版早在2006年就已經上線公開了,我們看到的這一版是2008年的第二版,當時在PC互聯網時代,未經主動傳播的情況下就取得了5W的單日訪問量。
來看看微軟AI的代表作:
上聯:此木為柴山山出下聯:白水做泉日日昌橫批:景色怡人上此下木,是為柴;上白下水,是為泉。
能對出拆字聯,這位AI老先生的文學造詣可見一斑。
究其原理,我們找到了微軟亞洲研究院副院長周明博士的博文《微軟對聯背後的故事》,文中是這樣介紹的:
我設計了一個簡單的模型,把對聯的生成過程看作是一個翻譯的過程。給定一個上聯,根據字的對應和詞的對應,生成很多選字和候選詞,得到一個從左到右相互關聯的詞圖,然後根據一個動態規劃算法,求一個最好的下聯出來。傳送門
- 王斌版AI對聯
- https://ai.binwang.me/couplet/
- 開源代碼
- https://github.com/wb14123/seq2seq-couplet
- 訓練數據集
- https://github.com/wb14123/couplet-dataset
- 微軟對聯
- https://duilian.msra.cn/default.htm
— 完 —
關注清華-青島數據科學研究院官方微信公眾平臺“THU數據派”及姊妹號“數據派THU”獲取更多講座福利及優質內容。
閱讀更多 THU數據派 的文章