雲知聲-上師大人機交互實驗室獲BC2020國際語音合成大賽第一名頭條網

雲知聲-上師大人機交互實驗室獲BC2020國際語音合成大賽第一名

2021-04-02 20:23:12 佚名

Blizzard Challenge 2020 國際語音合成大賽剛剛落下帷幕。由雲知聲-上海師範大學自然人機交互聯合實驗室申報的系統在強敵環伺的賽場中突出重圍，首次參賽即斬獲中文普通話、上海話多項關鍵指標第一，再一次印證了雲知聲語音合成技術在業界的領先水準。

Blizzard Challenge 國際語音合成大賽是由美國卡耐基-梅隆大學和日本名古屋工業大學聯合發起的公開的語音合成技術評測平臺，是語音合成領域最具權威性的技術評測比賽。比賽旨在構建一個公開、統一的語音合成技術評測平臺，加強世界各地語音合成研究機構之間的技術交流與溝通，共同推動語音技術的快速發展。

其作為國際上規模最大、影響力最大的語音合成大賽，至今已成功舉辦過 15 屆，每年都吸引眾多國際一流的科研單位和企業參賽。以往參賽隊伍包括 CMU（美國卡耐基－梅隆大學）、Cambridge University(英國劍橋大學)、University of Edinburge(英國愛丁堡大學)、Nitech (日本名古屋工業大學)、科大訊飛、中科院自動化所等國內外語音合成領域的頂尖高手。

多指標領跑，強勁的綜合實力

語音作為人工智能技術發展的三大方向之一，在應用落地過程中，受外部環境影響極大，因此對語音系統模型、引擎等要求極為嚴苛。從語音合成需求的角度來看，自然度、相似度和可懂度是實際應用中最為核心的三大核心指標。

Blizzard Challenge 2020 分兩個任務：

1）中文普通話合成（Hub task），以高表現力的聲音作為合成樣本，充分考察參賽者對複雜多變的韻律節奏的把控能力，旨在輸出高真實感的合成語音，另外這次比賽還考察參賽者對段落韻律的把控能力；

2）上海話合成（Spoke task），提供的聲音數據較少，充分考察參賽者在小樣本上的學習能力。

本次比賽中，聯合實驗室團隊憑藉在合成領域的深厚積累，中文普通話合成自然度 MOS 達到 4.2，段落合成所有指標（Overrall impression\pleasantness\speech pauses\stress\intonation\emotion\listening effort）位列第一，並且通過遷移學習，從零開始快速構建了上海話合成系統，合成自然度 MOS 達到4.0，雙雙領跑；與此同時，普通話相似度、上海話可懂度兩項指標亦領跑榜單，充分體現了團隊合成技術的綜合實力。

注：A 為真人聲，B-Q 為參賽隊伍，雲知聲-上海師範大學聯合實驗室隊伍代碼為 I

注：自然度主要評價合成語音是否像真人說話一樣自然流暢，相似度主要評價合成語音與目標說話人在音色和韻律上的相似程度，自然度和相似度是合成系統的最重要的兩個評測指標，分數越高，說明效果越好。一般大學生髮音自然度為 4.0 分。由於上海話原始數據質量較低，團隊為了獲得更好的聽感，對原始語音進行了升採樣率的處理，所以相似度方向會有損傷。

本次大賽上，團隊採用業界主流的端到端合成技術，並針對端到端合成系統普遍存在的穩定性和效率問題進行了較多優化，在解決穩定性的同時，可以實現高效率的合成。目前，該項技術已經在雲知聲家居、金融、兒童機器人等業務領域合作伙伴的產品中廣泛使用，並取得良好反響。

另外，本次比賽涉及大規模高複雜度的模型訓練，在這過程充分體現了雲知聲計算資源優勢。實際上，從 2012 年開始，雲知聲便開始搭建自身的 DeepFlow 集群，該異構化硬件服務器集群可向上提供密集的計算和存儲能力，保證雲知聲研發團隊充足算力的支持。目前該集群規模為 1000GPU 以上，計算能力達 1 億億次／秒，在以美國的 IBM Summit 超算平臺、我國的神威太湖之光超算平臺為代表的全球超算平臺算力排名中位列前 20 位。