一個AI博士8年生活實錄:沒有苦哈哈 倒是樂呵呵

近期,博士畢業生王贇在網絡上寫了一篇留學生涯的貼子,道出他在人工智能相關領域求學的點滴、感悟和精彩生活,引起網友熱議。從2010 年8 月到2018 年10 月,王贇把最好的青春年華獻給了博士學習。“其中前兩年是碩士,但由於碩士生活跟博士並沒有太大區別,都要做研究,所以說八年博士也並不過分吧。”在就讀期間,他換了2個研究項目,做了3個項目,拿到博士學位時間略微超出平均值。

也正是走過這樣一段彎路,他在2014年搭上了深度學習的快車,也趕上2017年弱標註事件大數據公佈的風口,做出瞭如今讓他滿意的“弱標註下的音頻事件檢測”研究成果。“我並不覺得我前四年是荒廢了的。整整八年的學習,讓我對語音識別、深度學習等各個領域的理論基礎有了紮實的掌握。”

他並沒有散發出苦的氣息,而是整天樂呵呵的地把留學生活過得多姿多彩——他走進社團、周遊城市、全世界旅遊,結識了許多非常有趣的朋友。

文、圖/廣州日報全媒體記者李華

一個AI博士8年生活實錄:沒有苦哈哈 倒是樂呵呵


王贇

王贇在網上發佈的留學生涯的帖子寫得非常有趣,有些意外這是一個理科工學生的手筆。與他交談也非常愉快和放鬆。

1

他的眼中只有語音


王贇高中就讀於山東龍口一中,昔日的校友在網上直呼高中時代他就是一個學霸。

“像數學物理化學這方面從中學時代就已經有比較濃厚的興趣了,高中參加過信息學競賽,編程算法這些學得比較早。”在他看來,當時這些還算挺新的東西。也就是在高中的時期,他對語音方面就萌發了興趣,他記得,讀高一時瞭解到日本出的一款用電腦合成唱歌的軟件,“就覺得這個東西挺好玩,然後就想將來我也可以做一款類似的東西,然後從那個時候開始有了興趣。”在這背後還有他喜愛唱歌這一推動因,“我比較喜歡唱歌,學了好多首歌,這個東西正好可以合成歌曲。”為此,後來上了大學,他“自主研發”了一套系統。

在清華,他完成了這個深藏已久的心願。2006年,王贇考入清華大學電子工程系,大一的時候,他就著手完成這個小心願,“寫了一個簡陋的合成系統出來,(系統)還湊合,很明顯是合成音,不過能聽出是唱歌聲。(笑)”牛刀小試後,他感到一些成就感,當時想如果以後有這種機會的話,希望往這個方向發展。

語音合成只是他縱身躍入興趣領域的入口,是語音識別還是語音合成都無所謂,“只要跟語音信號有關係的東西,我都比較有興趣。”電子工程系中的一門課信號處理,王贇學得比較紮實,“因為語音本身就是一個信號,所以這個可以算是看家本領。”他說,語音本身就是一個信號,它是一個波形樣態,你怎麼對它處理來提取裡面有用的信息,經過電子系的訓練之後,這方面的功力會比較紮實一些。

在本科階段,王贇眼中關注的都是語音,也發表了第一篇署名為第一作者的論文。那時候人工智能還不是如現在這般火,他也陰差陽錯成了人工智能領域最早的一批先行者。

2

8年博士生涯


本科畢業以後,王贇在發展語音興趣路上越走越遠,走出了國門去留學。他申請到兩所大學的研究生。一般而言,攻讀碩士學位比較難拿到獎學金,而其中一所大學的項目很特殊,給了獎學金,於是他選擇了這所大學。

一個AI博士8年生活實錄:沒有苦哈哈 倒是樂呵呵


王贇(右)和朋友一起演出。

王贇前2年讀碩士,做的事跟博士幾乎沒有兩樣,一半時間上課一半時間做研究。從碩士到博士的中間需要再申請一次,但是因為他已經在那,教授們都見過,評價的依據就比較豐富,“就這樣自然而然申請上博士。”

從入學到2012 年春天,王贇跟隨老師研究說話人識別(分為說話人辨認和說話人確認)。他說,做說話人識別,一般不管說的是什麼內容,哪怕你聽不懂,也能聽出來是誰在說話。在這將近兩年的時間裡,王贇用Matlab 語言親自實現了十幾種語音特徵的提取。

“那時候博士申請結果已經出來了,所以說不會有特別緊張,但從技術上來看是個遺憾,因為沒有在市場上火起來。”後來,王贇轉到一位高高胖胖的德國教授名下攻讀博士,名字發音和英語的花朵有些相似,於是在中文的語境中,王贇稱導師為“花哥”。

3

博士三年仍未發論文


投身花哥門下,王贇做的第一個項目是Babel,其任務是在多種小語種語音裡檢索關鍵詞,這個項目是由全世界許多大學和公司共同參與,大學或公司合作組隊伍,而隊伍之間互相PK,最後優勝劣汰,留下好的項目。

這是一個規模很大的系統,前期要完成一個從無到有的過程,有了這個基礎之後,才能做研究。王贇形容前期搭建系統“與其說是像科研,不如說是像工作”。2014年,王贇才從工程性工作中脫身出來,開始做有價值的科研工作,比如如何更準確地給檢索到的每個關鍵詞的可靠性打分。然而好景不長。2014年6月,正當王贇在韓國遊玩的時候,實驗室的同學發來噩耗:王贇所在的隊伍被淘汰。這猶如晴天霹靂。那個時候他在想下面做什麼好。

一個AI博士8年生活實錄:沒有苦哈哈 倒是樂呵呵


王贇(左2)和朋友一起遊玩。

“我一下子不知道將來的路就是怎麼走。”而此時是王贇留學的第四年,到此時為止,他只發出了一篇署名為第一作者的論文,另外一篇論文屢投屢不中,最後只能將其塵封。他當時就知道這個博士可能會是一場馬拉松,經過前面一兩年的熱身很正常,但到了第三年還沒科研產出,這對於博士來說,是一件很驚悚的事情。“知乎上有一個這樣的問題:博士第三年還沒有發論文是一種怎樣的體驗?我想我是最適合回答的,但終究沒有勇氣回答。”那時起,他做好了讀博六年七年八年的準備。

第四年的這篇論文讓他的焦慮得以緩解。“感覺就是從0到1的質變。”2014年下半年,他經歷了近乎搏命的半年。在這半年他閱讀了近百篇論文,還在網上學習了深度學習三巨頭之一Geoffrey Hinton的課程,系統地學了其中的技術。這得益於2013年、2014年在做項目過程中學習到的最前沿的東西。在2014年9月新加坡舉行的Interspeech 會議上,他嗅到了深度學習正在崛起的信號。“深度學習這個工具我已經掌握了,我知道終究有爆發的一天。”

4

搶佔學術榮譽高地


博士論文的最終選題王贇確定為事件檢測。他打比方說,事件有低層和高層之分,底層的事件,比如貓叫、狗叫、開關門,比較高層的事件,比如球賽、婚禮、聚會等。當時選擇這個方向,王贇並沒有感覺到它的魅力在哪,現在看來,當時正好是萬事俱備,只欠東風,也就是說技術的發展差不多到了能夠做這些事情(事件檢測)的時候了。

在2016 年3 月的ICASSP 會議上,芬蘭Tempere 理工大學的研究組與王贇同時發表了用深度學習做底層事件檢測的論文。在這場關乎學術榮譽的陣地戰中,王贇走在了前列。當時,王贇關注到芬蘭那邊有個實驗室小組也在做類似的課題,他想著的不能落後於人,於是有了這場競賽,最後他們平分秋色,“我們兩個是同時發出來的,所以後來我們兩個都被引用,感覺算是在這個領域內,我也是並列第一個做研究的,算是第一波里面的先行者之一。”

“就從這個時候開始,我覺得算是我這個博士研究走上正道了,開始以相對固定的節奏發論文了。”後來,他明顯感覺做研究的數據不足,總共就10幾個小時的數據,在深度學習面前這點數據無疑是杯水車薪,“沒有數據,就是巧婦難為無米之炊啊!”就在他為此苦思不得之際,他有如神助——每條長度為10 秒的200 萬條視頻數據集被公佈出來,這樣的大數據正合深度學習胃口。這組數據集拯救了他的研究。

那是2017年春天,王贇去參加會議時得知這個消息,“當時就覺得這個東西可能真的就說拯救了這個領域。”果不其然,後續的許多相關研究或是全部或是部分使用了這組數據集。王贇則全部使用了,光是下載數據就花了整整一個月。這組數據還有一個特點就是弱標註——它沒有標註事件的起止時間,而只標註了每段音頻中的事件種類。這幾乎和王贇的博士論文不謀而合。他的目標也就非常明確——如何在已有的檢測基礎上進行方法創新。他的這項技術可以做到在數以億計的海量音視頻信息中通過深度學習來直接鎖定某些音視頻片段。

從2007年10月開題以來,王贇在跟時間賽跑。“那會就想盡可能把東西往前趕,因為到2017年已是留學第七年了,已經開始超出(博士畢業時間)平均值了。”8年的博士生涯,王贇走了不少彎路,但他沒有沉浸在失落的情緒中。“正如吃完第三個包子飽了不代表前兩個包子就白吃了一樣,我並不覺得我前四年是荒廢了的。整整八年的學習,讓我對語音識別、深度學習等各個領域的理論基礎有了紮實的掌握。”也正因為有了前期曲折道路的鋪墊,他在2014年搭上了深度學習的快車,也趕上2017年弱標註事件大數據公佈的風口,而這些都需要時間的沉澱,“哪怕我前幾年沒走這些彎路,我如果(畢業)太早趕不上這兩波,也做不出現在這個成果了。”

8年留學,王贇身邊的朋友換了一波又一波,特別是碩士朋友,有人戲稱他是“鐵打的Maigo”,Maigo是王贇的英文名。不過他並沒有散發出一種苦的氣息,而是整天樂呵呵的。

事實上,他的留學生活並不是外界感覺的那般苦悶,他走進社團、周遊城市周邊、全世界旅遊,把生活過得多姿多彩。他參加中國學生學者聯誼會,在其舉辦的才藝比賽中,抱著吉它彈唱一曲《老男孩》,一炮而紅。他參加pLayboycLub,與社團成員一起打狼人殺、一起做飯、滑冰、逛博物館,一起去看櫻花。他還在日語角、西語角和法語角跟外國人談笑風生。

“我沒有把留學的目的僅僅是學習知識,我確實不像有些同學那樣有比如說有經濟壓力之類,我就覺得既然出來了就體驗一下國外的生活,在讀書的同時,儘可能豐富體驗。”


分享到:


相關文章: