百度們鍾愛開放AI數據集,到底藏著什麼野心?

在經歷了 60 多年的起起伏伏之後,以機器學習為代表的人工智能,正不斷向行業縱深處發展。而此次人工智能的崛起,縱然離不開包括Hinton、Yann LeCun 等人堅持不懈地改進深度神經網絡算法。另一個更重要的原因則是,自移動互聯網、傳感器技術的快速發展,人類進入到一個生產海量數據的快車道,這些海量數據也成為「餵養」機器的「糧食」,從而讓機器也變得越來越聰明。

因此,如果說雲計算的逐步普及讓計算能力成本下降,從而提升人工智能落地速度的話,那麼如今數據就成為困擾人工智能進一步發展的主要障礙。不管是科研機構,還是個人開發者,都不可能具有如互聯網巨頭那樣的海量數據,而數據採集和數據標註的高成本,也是橫在市場面前的大山,這些共同構成百度等AI巨頭開放大規模數據集的宏大背景。

11月16日,在一年一度的百度世界大會上,百度宣佈推出百度AI公開數據集計劃——BROAD(Baidu Research Open-Access Dataset),並開放室外場景理解數據集、視頻精彩片段數據集、百度閱讀理解數據集。數據開放的形式和體量在業界無出其右。

據悉,室外場景理解數據集作為世界範圍內第一個帶像素級語義標籤的室外 3D 視頻,試圖將感知能力從物體級感知升級到像素級感知,進而瞭解圖片中所有像素的屬性和來源,實現更精準、安全的自動駕駛。視頻精彩片段數據集能夠提供視頻幀的圖片特徵序列,是全球首創的公開精彩片段標註數據集。而百度閱讀理解數據集 DuReader,則

是迄今為止規模最大的中文公開領域閱讀理解數據集。

可以說,在深度學習飛速發展、學習場景不斷擴大的趨勢下,百度的開源之路又向前拓展了一大步。

百度們鍾愛開放AI數據集,到底藏著什麼野心?

百度公開數據集發佈計劃“BROAD”

另據公開報道,百度 DuerOS 於當地時間 11 月 9 日正式在美國啟動一項名叫「普羅米修斯」的計劃。作為百度 DuerOS 今年最重要的戰略規劃之一,該計劃包含開放超大規模對話式AI數據集、跨學科合作、學科共建等多種計劃,以及一個百萬美元基金用以鼓勵和培養對話式AI領域的優秀項目和人才。具體到此次開放的超大規模數據集,包括遠場喚醒、遠場識別、多輪對話三個層面,供全球 AI 人才進行算法設計和模型訓練。

百度們鍾愛開放AI數據集,到底藏著什麼野心?

事實上,百度此舉也是行業發展的大趨勢,最近以來,包括 Google、微軟在內的人工智能巨頭們也有類似舉動。

借百度開放數據集的契機,不妨先來盤點下這些玩家。

1. 巨頭攪局的開放數據集戰場

在被微軟收購後,Maluuba 公司推出了一個開放的對話數據集。這個數據集主要圍繞旅行期間的預定場景,也就是查找航班和預定酒店。

據瞭解,利用這個數據集,開發者可以構建一個具有一定「記憶」能力的對話機器人,比如,當用戶同時向對話機器人下達「預定到上海的國航航班」和「預定到廣州的XX酒店」命令的時候,微軟的這個數據集可以幫助開發者實現多個命令的同時應答,從而讓整個對話過程更流暢,提升用戶體驗。

Google 的數據集開放則更「隨意」也更初級。在 Google TensorFlow和 AIY 網站共同開放的 Speedch Commands Dataset 數據集中,包含了 30 個命令短語,65000 次大約 1 秒鐘的發音。

百度們鍾愛開放AI數據集,到底藏著什麼野心?

與微軟面向特定場景的數據集相比,Google 這個數據集的智能交互中僅僅有一些「是」與「否」的特定回覆,其面向的也是一些基礎開發者,或者說,這個數據集更像是為了推廣其 TensorFlow 開源平臺。

而百度此次藉助「BROAD」開放的視頻精彩片段、閱讀理解數據集,以及通過「普羅米修斯」開放的對話數據集,不管是數據規模還是數據集的技術難度,都具有一定的領先優勢。

先看數據規模。在 BROAD 視頻精彩片段數據集中,包含了 1500 個綜藝長視頻,總長達到 1200 個小時,短視頻更是多達 18000 個。而在「普羅米修斯」的對話數據集中,涵蓋了對話機器人從(遠場)語音喚醒、(遠場)識別到交互對話的多個環節,每一個環節的數據量都非常大。

比如在遠場喚醒數據集裡,就包含了數十萬條「小度小度」(百度 DuerOS 的喚醒詞)以及其他主流中文喚醒詞的錄音數據,還包括數百小時的錯誤喚醒數據,而遠場識別數據集裡,也包含數千個小時中文遠場語音識別數據。

百度們鍾愛開放AI數據集,到底藏著什麼野心?

另外,這些數據集的「產生」過程也是來自於真實網絡環境下的真實問題,比如,當用戶在百度搜索裡通過文本或語音搜索某些問題時,這些數據都會經過脫敏處理後成為訓練機器的重要「糧食」。考慮到百度搜索在中文互聯網裡的重要影響力和龐大的用戶群體,因此由這些真實問題、真實需求形成數據集對於機器而言,也更具「營養價值」。

其次,值得注意的是,此次百度開放的三大數據集,不僅包括大規模的數據,而且提供了一整套評估數據集訓練的標準。以遠場語音喚醒為例,這可謂語音對話的第一步,利用大量語音數據的訓練後,對話機器人到底有沒有變「聰明」呢?

在百度開放的遠場喚醒數據集中,提供了眾多關鍵的驗收指標和方法,主要圍繞喚醒率、誤喚醒率、計算複雜度等維度評估算法的性能。同樣,對於遠場語音識別的標準,這個數據集也發佈了字準率、句準率的指標,用於衡量機器的訓練效果。

綜上來看,在整個行業陸續開放數據集的趨勢中,微軟、Google、百度分別從不同的角度切入到這個新戰場,如果說微軟是專注某些領域、Google是注重基礎功能,那麼百度目前所開放的數據集規模之大、覆蓋之廣,則彰顯出百度在「All in AI」戰略驅動下的決心和誠意。

當然,微軟、Google 也好,百度也罷,開放數據集的背後,也藏著不小的野心。

2.開放數據集的寓意

正如上文所言,困擾當下人工智能普及的主要障礙是數據,這也迫切需要 Google、百度等這些握有海量數據的大公司做出行動,而對這些巨頭來說,他們也看到了開放數據集的現實意義和長遠價值。

百度們鍾愛開放AI數據集,到底藏著什麼野心?

首先,利用這些開放的數據集,可以進一步降低機器學習、深度學習的門檻,加速整個行業向人工智能轉移。當微軟將人工智能列入優先發展戰略、當 Google 決定「AI First」、當百度喊出「ALL in AI」,這些巨頭更希望行業做出響應和反饋。開放數據集的舉措,讓機器學習、深度學習的開發、應用更具普惠價值。

其次,大量開放的數據集,不僅有助於提升產品體驗,也有望形成生態效應。目前,業界押注語音為新一代交互方式,因此,基於語音交互的數據集也是當下數據集開放的主流。通過開放語音交互不同環節的數據集,吸引更多開發者加入 AI 生態體系,能夠進一步提升百度在語音交互領域的話語權和影響力,並繼續吸引開發者、合作伙伴加入其中,這是一個正相關的閉環機制。而基於室外場景、視頻理解、閱讀理解的數據集開放,更大大加速相關領域問題研究的探索進度,真正填補現存數據來源、問題覆蓋、構建方式等方面的不足。

第三,通過開放數據集,能夠進一步吸引、發掘人才。人工智能時代裡的人才爭奪持續升溫,相對於人才金字塔頂尖的著名教授,金字塔中部乃至底部的人才更具長遠價值。

在一系列大規模數據集開放及扶持計劃中,百度對人才培養的決心顯而易見,比如聯合高校、共建實驗室合作、計劃啟動國際閱讀理解挑戰賽,再比如頒佈對話式人工智能人才認證以及100萬美元的專項基金等等。

3.寫在最後

事實上,整個 2017 年,圍繞人工智能的炒作新聞充斥在社會的各個角落,但行業的發展已經逐步進入穩定期。

對百度、Google、微軟等巨頭而言,通過不斷開放自己的人工智能平臺、數據,構建人工智能的生態效應,在加速公司轉型的同時,能夠影響整個行業發展,形成全新的護城河,同時讓人工智能開發門檻更低、更具大眾普惠價值。

對創業者以及開發者來說,移動互聯網的紅利已經消失,但人工智能的「誘惑」也同時到來。與移動互聯網相比,人工智能帶給人類社會的變革更深刻也更具商業前景,此時加入人工智能的創業浪潮,利用諸如百度、Google 開放的數據集,可以更專注打磨自己的產品,從而邁出成為「獨角獸」公司的第一步。


分享到:


相關文章: