馬雲要達摩院自負盈虧,結果語音技術就吊打專業收銀員

馬雲要達摩院自負盈虧,結果語音技術就吊打專業收銀員​拓撲社5月23日武漢報道(文:王藝多)


“五個巧克力兩個香草拿鐵巧克力加奶油兩個中杯焦糖拿鐵一個熱的一個冷的算了巧克力不要了再要六個小杯少冰摩卡三杯加焦糖三杯加香草再加一個大的冷的拿鐵去冰半糖加脫脂奶打包。”

想象一下,當有一位語速如華少一般的顧客,在咖啡店做著上述的點單動作時,咖啡師是什麼心態?

馬雲要達摩院自負盈虧,結果語音技術就吊打專業收銀員

“我放棄。太快了,記不下來。”資深咖啡師選擇中途放棄。

而自助點單機以每秒5個字的速度,把最後顧客點的23杯咖啡悉數確認。

這並不是玩笑或想象,而是正在發生的真實事件。

鄢志傑,阿里巴巴機器智能技術實驗室語音交互首席科學家。

在今天阿里雲棲大會·武漢峰會現場,鄢志傑把阿里最新的語義識別技術在咖啡自助點單上的應用,向觀眾進行了極限對比展示。

人類咖啡師在聽了鄢志傑第二次複述後完成了訂單,用時2分37秒。而機器只用了49秒!實力吊打!

馬雲要達摩院自負盈虧,結果語音技術就吊打專業收銀員


“今天,我們將機器對人類口語的理解能力帶到了新的高度。”鄢志傑說。

也許我們聽到這句話,不免會認為他在誇口。畢竟人工智能發展到現在,我們對語義理解也並不陌生。

像阿里天貓精靈,小米小愛同學等智能音箱,已經開始陸續走到我們生活中,真正被我們所熟知。

但“新的高度”,卻是事實。為什麼?

因為,這種交互方式完全打破了“語音喚醒+語音指令”的傳統交互方式。

我們看到,上述點單環節包含了修改、刪除、加單等多輪對話。在整個交流過程中,顧客不需要說“hi點單機”之類呆板的喚醒詞,而是直接下單,更符合人與人的自然對話。

馬雲要達摩院自負盈虧,結果語音技術就吊打專業收銀員


也就是說,你根本不需要像喚醒智能音箱一樣,非要說出一個喚醒詞才能和它交互。你要做的只要正常點單就可以了。

鄢志傑表示,阿里首創了流式多意圖口語理解引擎,極大地提升了對人類隨意、自然的口語表達的理解力,能夠做到免喚醒的自然的人機交流式的語音交互。

需要強調的是,這些模塊並非簡單級聯,而是深度融合而形成了多模態語音交互方案。

包括公共場所強噪聲環境下的信號處理和語音識別、視頻識別與面部識別、場景感知等多模態融合的感知智能。同時也融合了流式對話、多輪多意圖口語理解、業務知識圖譜自適應等認知智能。

拓撲社瞭解到,依託於業務知識圖譜自適應的技術,這套方案能夠快速的在更多場景落地。

目前已經落地的場景還有車內語音助手、電話智能客服、可免遙控器操作的遠場語音電視、可精準區分多人對話的智能麥克風等。

為何阿里能夠做出吊打人工的語音識別系統?這與去年阿里巴巴成立達摩院有相當密切的關係。

去年10月,馬雲在杭州雲棲大會上宣佈阿里巴巴達摩院成立,重點進行人工智能、量子計算等技術應用研發,並且強調“達摩院要自負盈虧”。

而在採訪中鄢志傑透露,亮相此次雲棲大會的點單機,背後的語音識別語義理解技術,正是來自阿里巴巴達摩院。

“未來,我們希望實現公眾空間裡的萬物皆能對話。無論是咖啡點餐還是地鐵售票,我們都是讓AI在真實的產業場景下發揮價值。這比那些在實驗室裡炫技的AI更有意義,更具生命力。”阿里雲產品總監何雲飛說。

據瞭解,除了解決方案之外阿里雲還推出了ET大腦,包含ET城市大腦、ET工業大腦、ET醫療大腦等。

目前,ET工業大腦已經幫助工業製造企業創造利潤數十億,ET城市大腦在杭州、澳門、吉隆坡等城市落地,承擔著交通優化、平安城市等職責。

-END-


分享到:


相關文章: