11.24 微軟小冰:愛情和葡萄酒一樣,對程序員來說都是奢侈品

郭一璞 發自 微軟
量子位 報道 | 公眾號 QbitAI

“愛情和葡萄酒一樣,對程序員來說都是奢侈品。”

微軟小冰:愛情和葡萄酒一樣,對程序員來說都是奢侈品

這是學習“比喻”這種修辭手法時,微軟小冰的一句話。

現在,已經有4.5億臺第三方智能設備搭載了小冰,小冰多輪對話的輪數(CPS)最高已經達到了23輪。

過去5年來,小冰團隊有48篇論文發在了AAAI I JCAI ACL KDD EMNLP等頂會上,已經申請了72個專利,其中,今年發了3篇ACL、4篇EMNLP、1篇Interspeech和1篇ACM MM long paper。

在前不久的一次workshop上,微軟小冰首席科學家宋睿華、微軟小冰首席NLP科學家武威、微軟小冰首席語音科學家欒劍分享了近年來小冰的技術成就。

朝向自我完備的對話機器人

此前,小冰已經掌握了“尬聊”技能,能控制多輪對話的節奏和走向,微軟小冰首席NLP科學家武威介紹了這一過程背後的技術,他稱之為朝向自我完備的對話機器人

自我完備,也就是Self-Complete,自我完備的機器人需要具備三個能力:

1、學習能力,不僅從人類的對話中學習,也可以讓不同的機器人藉助Co-teaching模型互相學習;

2、能夠自主的管理,初級階段是知道單輪對話應該進行怎樣的表達,高級階段就是能把控整個對話的流程;

3、連結能力,連結散落在世界上的多模態知識。

微軟小冰:愛情和葡萄酒一樣,對程序員來說都是奢侈品

在三種能力之上,結合檢索模型(Retrieval Model)、生成模型(Generation Model)和共感模型(Empathy Model),這樣小冰就可以自主把握對話過程。

小冰唱歌技能揭秘

微軟小冰唱滄海一聲笑來自量子位00:0001:16

微軟小冰首席語音科學家欒劍揭秘了小冰的唱歌技能。

首先,唱歌有三大要素:發音、節拍和音調。

那麼,AI要怎樣學會一首歌呢?

有兩種方法,一是學習人唱的歌,聽人類歌手的原唱,這也是人類更喜歡的學唱歌方式,但機器通過這種方式來學唱歌需要需要判斷曲調,更容易有誤差。

二是看著曲譜學這首歌,直接從曲譜生成唱出來的音頻文件,這對人類來說比較複雜,但對機器來說更容易。

之後,合成一段歌聲也有兩種方法。

一種是單元拼接法,把單個的聲音找出來拼在一起。

微軟小冰:愛情和葡萄酒一樣,對程序員來說都是奢侈品

如果不考慮音調,聲母和韻母湊成的單音節有400個左右,提前錄製好這400個音節的不同版本,長的短的、高音低音,湊成單元庫,再根據具體歌曲中的發音需求從單元庫中選取單元拼接起來。

不過,這種方法可能不太流暢,會有一個字一個字蹦的感覺,出來的曲調過渡上會讓人感覺生硬。

另一種是參數合成法,用隱馬爾科夫模型來做。

這種方法是從大量錄音數據中提取包括能量譜、時長、音高在內的聲學參數,通過聲學參數、聲碼器把音頻的波形重構出來。

這種方法得出的結果有豐富的變化,可以創造出從來不存在的聲音,但是在聲碼器重構的過程中可能會引起音質損失。

微軟小冰:愛情和葡萄酒一樣,對程序員來說都是奢侈品

小冰的唱歌技能就是基於參數合成法,從樂譜中採集發音、節拍、音調三大要素,分別對聲譜參數、節奏序列、音高軌跡用三個模型分別建模,用神經網絡預測參數,之後把這些參數通過聲碼器生成波形。

之後的迭代中,也藉助了模塊化的方式,並將三個模型合為一個,這樣合成歌聲的自然度和流暢度就得以提升了。

小冰如何學會比喻

微軟小冰首席科學家宋睿華介紹了小冰學會比喻句的過程。

讓小冰學比喻的靈感,來自一個段子:

不管什麼樣句子,後面加一個“愛情也是這樣的”都是說得通的。

比如,“人有兩條腿,愛情也是這樣的”,可以理解為“愛情總會走的”,也可以理解為“愛情總會來的”。

在這個邏輯下,找到本體、喻體和中間的解釋,就可以有很多種可能:

微軟小冰:愛情和葡萄酒一樣,對程序員來說都是奢侈品

比如“愛情和葡萄酒一樣,對程序員來說都是奢侈品。”

不過,它也可能生成神奇的比喻:

微軟小冰:愛情和葡萄酒一樣,對程序員來說都是奢侈品

“戀人像是可靠的報表”

微軟小冰:愛情和葡萄酒一樣,對程序員來說都是奢侈品

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們,第一時間獲知前沿科技動態


分享到:


相關文章: