一个AI博士8年生活实录:没有苦哈哈 倒是乐呵呵

近期,博士毕业生王赟在网络上写了一篇留学生涯的贴子,道出他在人工智能相关领域求学的点滴、感悟和精彩生活,引起网友热议。从2010 年8 月到2018 年10 月,王赟把最好的青春年华献给了博士学习。“其中前两年是硕士,但由于硕士生活跟博士并没有太大区别,都要做研究,所以说八年博士也并不过分吧。”在就读期间,他换了2个研究项目,做了3个项目,拿到博士学位时间略微超出平均值。

也正是走过这样一段弯路,他在2014年搭上了深度学习的快车,也赶上2017年弱标注事件大数据公布的风口,做出了如今让他满意的“弱标注下的音频事件检测”研究成果。“我并不觉得我前四年是荒废了的。整整八年的学习,让我对语音识别、深度学习等各个领域的理论基础有了扎实的掌握。”

他并没有散发出苦的气息,而是整天乐呵呵的地把留学生活过得多姿多彩——他走进社团、周游城市、全世界旅游,结识了许多非常有趣的朋友。

文、图/广州日报全媒体记者李华


王赟

王赟在网上发布的留学生涯的帖子写得非常有趣,有些意外这是一个理科工学生的手笔。与他交谈也非常愉快和放松。

1

他的眼中只有语音


王赟高中就读于山东龙口一中,昔日的校友在网上直呼高中时代他就是一个学霸。

“像数学物理化学这方面从中学时代就已经有比较浓厚的兴趣了,高中参加过信息学竞赛,编程算法这些学得比较早。”在他看来,当时这些还算挺新的东西。也就是在高中的时期,他对语音方面就萌发了兴趣,他记得,读高一时了解到日本出的一款用电脑合成唱歌的软件,“就觉得这个东西挺好玩,然后就想将来我也可以做一款类似的东西,然后从那个时候开始有了兴趣。”在这背后还有他喜爱唱歌这一推动因,“我比较喜欢唱歌,学了好多首歌,这个东西正好可以合成歌曲。”为此,后来上了大学,他“自主研发”了一套系统。

在清华,他完成了这个深藏已久的心愿。2006年,王赟考入清华大学电子工程系,大一的时候,他就着手完成这个小心愿,“写了一个简陋的合成系统出来,(系统)还凑合,很明显是合成音,不过能听出是唱歌声。(笑)”牛刀小试后,他感到一些成就感,当时想如果以后有这种机会的话,希望往这个方向发展。

语音合成只是他纵身跃入兴趣领域的入口,是语音识别还是语音合成都无所谓,“只要跟语音信号有关系的东西,我都比较有兴趣。”电子工程系中的一门课信号处理,王赟学得比较扎实,“因为语音本身就是一个信号,所以这个可以算是看家本领。”他说,语音本身就是一个信号,它是一个波形样态,你怎么对它处理来提取里面有用的信息,经过电子系的训练之后,这方面的功力会比较扎实一些。

在本科阶段,王赟眼中关注的都是语音,也发表了第一篇署名为第一作者的论文。那时候人工智能还不是如现在这般火,他也阴差阳错成了人工智能领域最早的一批先行者。

2

8年博士生涯


本科毕业以后,王赟在发展语音兴趣路上越走越远,走出了国门去留学。他申请到两所大学的研究生。一般而言,攻读硕士学位比较难拿到奖学金,而其中一所大学的项目很特殊,给了奖学金,于是他选择了这所大学。


王赟(右)和朋友一起演出。

王赟前2年读硕士,做的事跟博士几乎没有两样,一半时间上课一半时间做研究。从硕士到博士的中间需要再申请一次,但是因为他已经在那,教授们都见过,评价的依据就比较丰富,“就这样自然而然申请上博士。”

从入学到2012 年春天,王赟跟随老师研究说话人识别(分为说话人辨认和说话人确认)。他说,做说话人识别,一般不管说的是什么内容,哪怕你听不懂,也能听出来是谁在说话。在这将近两年的时间里,王赟用Matlab 语言亲自实现了十几种语音特征的提取。

“那时候博士申请结果已经出来了,所以说不会有特别紧张,但从技术上来看是个遗憾,因为没有在市场上火起来。”后来,王赟转到一位高高胖胖的德国教授名下攻读博士,名字发音和英语的花朵有些相似,于是在中文的语境中,王赟称导师为“花哥”。

3

博士三年仍未发论文


投身花哥门下,王赟做的第一个项目是Babel,其任务是在多种小语种语音里检索关键词,这个项目是由全世界许多大学和公司共同参与,大学或公司合作组队伍,而队伍之间互相PK,最后优胜劣汰,留下好的项目。

这是一个规模很大的系统,前期要完成一个从无到有的过程,有了这个基础之后,才能做研究。王赟形容前期搭建系统“与其说是像科研,不如说是像工作”。2014年,王赟才从工程性工作中脱身出来,开始做有价值的科研工作,比如如何更准确地给检索到的每个关键词的可靠性打分。然而好景不长。2014年6月,正当王赟在韩国游玩的时候,实验室的同学发来噩耗:王赟所在的队伍被淘汰。这犹如晴天霹雳。那个时候他在想下面做什么好。


王赟(左2)和朋友一起游玩。

“我一下子不知道将来的路就是怎么走。”而此时是王赟留学的第四年,到此时为止,他只发出了一篇署名为第一作者的论文,另外一篇论文屡投屡不中,最后只能将其尘封。他当时就知道这个博士可能会是一场马拉松,经过前面一两年的热身很正常,但到了第三年还没科研产出,这对于博士来说,是一件很惊悚的事情。“知乎上有一个这样的问题:博士第三年还没有发论文是一种怎样的体验?我想我是最适合回答的,但终究没有勇气回答。”那时起,他做好了读博六年七年八年的准备。

第四年的这篇论文让他的焦虑得以缓解。“感觉就是从0到1的质变。”2014年下半年,他经历了近乎搏命的半年。在这半年他阅读了近百篇论文,还在网上学习了深度学习三巨头之一Geoffrey Hinton的课程,系统地学了其中的技术。这得益于2013年、2014年在做项目过程中学习到的最前沿的东西。在2014年9月新加坡举行的Interspeech 会议上,他嗅到了深度学习正在崛起的信号。“深度学习这个工具我已经掌握了,我知道终究有爆发的一天。”

4

抢占学术荣誉高地


博士论文的最终选题王赟确定为事件检测。他打比方说,事件有低层和高层之分,底层的事件,比如猫叫、狗叫、开关门,比较高层的事件,比如球赛、婚礼、聚会等。当时选择这个方向,王赟并没有感觉到它的魅力在哪,现在看来,当时正好是万事俱备,只欠东风,也就是说技术的发展差不多到了能够做这些事情(事件检测)的时候了。

在2016 年3 月的ICASSP 会议上,芬兰Tempere 理工大学的研究组与王赟同时发表了用深度学习做底层事件检测的论文。在这场关乎学术荣誉的阵地战中,王赟走在了前列。当时,王赟关注到芬兰那边有个实验室小组也在做类似的课题,他想着的不能落后于人,于是有了这场竞赛,最后他们平分秋色,“我们两个是同时发出来的,所以后来我们两个都被引用,感觉算是在这个领域内,我也是并列第一个做研究的,算是第一波里面的先行者之一。”

“就从这个时候开始,我觉得算是我这个博士研究走上正道了,开始以相对固定的节奏发论文了。”后来,他明显感觉做研究的数据不足,总共就10几个小时的数据,在深度学习面前这点数据无疑是杯水车薪,“没有数据,就是巧妇难为无米之炊啊!”就在他为此苦思不得之际,他有如神助——每条长度为10 秒的200 万条视频数据集被公布出来,这样的大数据正合深度学习胃口。这组数据集拯救了他的研究。

那是2017年春天,王赟去参加会议时得知这个消息,“当时就觉得这个东西可能真的就说拯救了这个领域。”果不其然,后续的许多相关研究或是全部或是部分使用了这组数据集。王赟则全部使用了,光是下载数据就花了整整一个月。这组数据还有一个特点就是弱标注——它没有标注事件的起止时间,而只标注了每段音频中的事件种类。这几乎和王赟的博士论文不谋而合。他的目标也就非常明确——如何在已有的检测基础上进行方法创新。他的这项技术可以做到在数以亿计的海量音视频信息中通过深度学习来直接锁定某些音视频片段。

从2007年10月开题以来,王赟在跟时间赛跑。“那会就想尽可能把东西往前赶,因为到2017年已是留学第七年了,已经开始超出(博士毕业时间)平均值了。”8年的博士生涯,王赟走了不少弯路,但他没有沉浸在失落的情绪中。“正如吃完第三个包子饱了不代表前两个包子就白吃了一样,我并不觉得我前四年是荒废了的。整整八年的学习,让我对语音识别、深度学习等各个领域的理论基础有了扎实的掌握。”也正因为有了前期曲折道路的铺垫,他在2014年搭上了深度学习的快车,也赶上2017年弱标注事件大数据公布的风口,而这些都需要时间的沉淀,“哪怕我前几年没走这些弯路,我如果(毕业)太早赶不上这两波,也做不出现在这个成果了。”

8年留学,王赟身边的朋友换了一波又一波,特别是硕士朋友,有人戏称他是“铁打的Maigo”,Maigo是王赟的英文名。不过他并没有散发出一种苦的气息,而是整天乐呵呵的。

事实上,他的留学生活并不是外界感觉的那般苦闷,他走进社团、周游城市周边、全世界旅游,把生活过得多姿多彩。他参加中国学生学者联谊会,在其举办的才艺比赛中,抱着吉它弹唱一曲《老男孩》,一炮而红。他参加pLayboycLub,与社团成员一起打狼人杀、一起做饭、滑冰、逛博物馆,一起去看樱花。他还在日语角、西语角和法语角跟外国人谈笑风生。

“我没有把留学的目的仅仅是学习知识,我确实不像有些同学那样有比如说有经济压力之类,我就觉得既然出来了就体验一下国外的生活,在读书的同时,尽可能丰富体验。”