機器寫作?我們讀的文章有多少不是人類寫的?


機器寫作?我們讀的文章有多少不是人類寫的?


2018年,京東推出了兩款基於人工智能的內容創作系統,李白寫作莎士比亞


其中莎士比亞系統是京東收集了大量商品的文案數據,將搜索接口提供給商家,進行高效匹配。


李白寫作系統,根據官方的說明,是一款京東自研的內容創作平臺,通過自主定製研發的中文分詞、語法糾錯、通順性檢測、上下文聯想等技術,結合海量行業語料的不斷積累,可在短時間內為各個領域提供大量高質量文章。


我們距離不知道署名為誰的文字還有多遠?


自學成柴


機器是不是也能寫作?


自從腦袋裡第一次冒出這個想法,到現在已經有10年了。當時剛剛可以熟練地操作Excel與VBA,感覺自己的人生一下子不一樣了,什麼東西都想放進橫七豎八的表格裡,行與列之間似乎成為了思維的起點。


有了想讓機器寫作的想法之後,自己仔仔細細想了好一陣子。


寫作,無非就是主謂賓、定狀補,動詞、名詞、形容詞、副詞、感嘆詞、語氣詞的各種排列組合,而語法是有規可循的東西,

規矩又蘊藏著邏輯,把邏輯從字裡行間抽選出來,是不是就可以讓機器自己跑起來,然後洋洋灑灑無窮盡也?


帶著這樣簡單的想法,我試圖進行一些實驗,但是發現從詞語出發,到一個短語,這中間過程就萬水千山,很難把我們寫作時腦袋裡的思維變成簡單的邏輯,更何況進行相應的輸出(後來才知道,這裡是吃了當時不懂NLP(自然語言處理)的虧了)。


後來實驗沒有開始下去,思索也並沒有持續進行,但是有關機器寫作這個念頭一直在腦袋裡生根發芽。


三年前不斷被熱炒的人工智能,推升了整個社會對於

AI領域的關注。


有段時間因為公司裡有個喜歡鑽研深度學習,又酷愛下棋的CTO,所以近水樓臺先得月,經常裝作對Apha Go很感興趣的樣子找他閒聊幾句,試圖偷師幾下,結果不幸誤入了這個不會好好說話只會講專業術語兄弟的"圈套",一失足成千古恨,因為人工智能是個即龐大又深奧的領域,試圖通過一兩個點去管中窺豹,只能是越瞭解越糊塗,到後來只剩下懸掛在腦袋上一個又一個雲裡霧裡的懵圈,拾人牙慧這條路也算是徹底堵死了。


好在這次受挫之後並沒有放棄,一扇大門既然看到了一條縫,用手用腳用牙齒也要把它儘可能拉開一點,讓自己不再愚昧無知下去。


後來斷斷續續閱讀了一些東西,維基、科普讀物、期刊以及知乎(說起知乎,恨透了那些用軟文做廣告的,害人最壞的方法就是誤導思考和浪費時間,他們都佔了),尤其值得一提的是

朱松純教授的一篇演講稿(《淺談人工智能:現狀、任務、構架與統一》文末有鏈接,強、強、強烈推薦!),由淺入深,統攬全局地讓自己對人工智能這個領域有了最基礎的正確認知。


智能寫作


眾所周知,人工智能在推理能力與跨領域的知識整合是有待加強的,不過學習及計算的能力則遠優於人類。


所以目前大量的算法設計和應用場景,都是通過大量的數據去訓練人工智能,以遠遠超過人類的學習速度去總結規律、實現目標,比如Alpha Go、前陣子火熱的Deepfake語音/人臉識別、以及目前在證券投資領域火熱的量化智能交易


而對於寫作這個領域,人工智能也開始嶄露頭角,開篇介紹的電商平臺推出的詳情頁製作是一個目前應用很成熟的領域。


類似的廣泛應用,也出現在以數據為基礎的新聞報道領域,例如體育新聞(往往都是誰贏了誰,幾比幾,誰上場誰進球等等)、財經要聞(一般都是上證指數多少了,公司盈利如何了,分紅了還是虧損了等等)、部分新聞報道(比如地震報道、天氣預報、以及其他有固定結構的簡訊類新聞)。


另外值得一提的就是文學創作領域,其實所有智能寫作的基礎就是NLP(自然語言處理),它通過詞語、短語、句子、段落、文章等不同維度進行處理,形成自然語言。


換句話說,就是解決如何讓機器學會說"人話"的問題。從詞語到短語,以及句子,是一個相對固定的模式,大致上可以通過窮盡的方式,把所有可能的排列組合程序化,然後進行輸出。


根據目前的進展來看,這方面機器做的其實還是不錯的,比如我看到知乎上,有人介紹的國外某智能軟件,寫出來的句子是這樣的:


"我走下一層樓梯,

我看到一個瘸子,

我看到我的愛人喝鴉片酒解愁。

我聽見嘲笑聲,

我停在窗臺。

我身上有蝨子,

我看到,

我丟掉了它。

無論如何我都感到憂鬱,

我發出一條信息……"


讀起來基本都是"人話",也就是符合自然語言的規則,但是句子與句子之間的關係就變得不那麼確定起來,所以讀起來有點像

詩歌的感覺。句子與句子貌似有關聯(對於機器而言),實則無關聯(對於人類而言),中間部分產生了大量的,類似於繪畫中的"留白"以及書法中的"飛白書",正是這些缺失,給了讀者以想象空間,達到了類似於渲染的目的。


但是正如我們所知,語言表達不同於繪畫書法,所傳達的信息量、要求的準確程度、還有過程中涉及到的根據情況進行調整的情況(比如聽眾沒聽懂、觀眾沒看懂,需要換一種表達重複的時候),都是高了不止一個等級的。


繪畫書法,甚至包括攝影(影像)所構建的是一個

基於人類認知形成的想象空間,而語言文字表達則是一個更為精確的信息傳輸過程


而這也是目前人工智能創作的瓶頸,在一個有限的語言世界裡(只由詞語、短語以及短句組成,或者其他封閉的語言環境裡),工作得很好,但是當來到現實世界裡,面對我們人類表達中,大量的含糊與不確定性,人工智能就變得舉步維艱起來。


人機協同


現在,我們已經能看到很多已經商業化了的,基於人工智能的寫作系統了,比如Get智能寫作小發貓神碼


但是這類應用通行的辦法,都是利用搜索技術把互聯網文章收集起來形成有規模的文本庫,然後(1)給寫作者提供靈感(2)方便寫作者摘抄,然後(3)通過基礎NLP功能進行詞語的同義詞替換,句子的改寫(主要是順序、結構等)和(4)一定程度的擴寫(但是以我目前觀察到的,效果並不佳)。


這些寫作系統主要的面向對象是大量的新媒體從業者,因為對他們而言,標題夠吸引人、跟蹤熱點、描述得是人話、不被反作弊系統發現有"洗稿"嫌疑,就是為他們減少了大量的體力勞動,作為寫作者的得力幫手看上去是一條相對光明的路。


而目前看起來,自主寫出一篇有質量的文章,對於機器還很難很難。


有人說,未來已來,人工智能滲透進各行各業的趨勢,是無法避免的。十年後,利用人工智能這個工具處理工作,有可能就如同今天我們寫文章用到的word、簡書。


所以別害怕人工智能會剝奪我們的工作和生活,當遠處那個機器鎧甲飛馳而來之時,你知道的,那並不是擎天柱或者霸天虎,而是身披戰甲的託尼·斯塔克,以及他最忠實的夥伴,賈維斯(電影《鋼鐵俠》主人公的人工智能機器人管家)。



分享到:


相關文章: