08.22 KDD 2018:中科大、蘇州大學與微軟的合作論文獲最佳學生論文獎

上週日,第24屆 ACM SIGKDD CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING(知識發現和數據挖掘會議,以下簡稱 KDD)在倫敦正式召開。KDD 是數據挖掘領域的頂級學術會議,全球的華人學者在這一研究領域有著舉足輕重的角色,近幾年國內也在不斷孕育出實力強勁的研究團隊。

據統計,今年 KDD 接收論文近 300 篇,而華人與中國作者的論文佔比達 近 64.5%。在 KDD 2018 大會上揭曉的獎項中,由中國科學技術大學、蘇州大學與微軟小冰團隊合作的論文《XiaoIce Band: A Melody and Arrangement Generation Framework for Pop Music》(《小冰樂隊:流行音樂的旋律與編曲框架》 )獲得了 Research Track 最佳學生論文。接下來 AI科技大本營給大家分享這篇論文重點內容的解讀。

KDD 2018:中科大、蘇州大學與微軟的合作論文獲最佳學生論文獎


小冰樂隊:流行音樂的旋律與編曲生成框架

摘要

隨著音樂創作知識的發展和近期需求的增加,越來越多的公司和研究機構開始研究音樂的自動生成。然而,以前的模型在應用於歌曲生成時具有侷限性,因為它需要旋律和編曲。此外,許多與歌曲質量相關的關鍵因素,如和絃進行和節奏型,都沒有得到很好的解決。特別是,如何確保多軌音樂和諧的問題仍未得到充分探索。為此,這篇論文聚焦在流行音樂生成,其中考慮了和絃和節奏對旋律生成的影響以及音樂編曲的和諧。提出了一個端到端的旋律和編曲生成框架,稱為小冰樂隊,它生成一個旋律軌道,再生成不同的樂器來進行伴奏。具體來說,通過設計了一個基於和絃的節奏和旋律交叉生成模型(CRMCG)來產生帶有和絃進行的旋律。然後,提出了一種多樂器聯合編曲模型(MICA),它使用多任務學習來進行多軌音樂編曲。最後,通過對現實世界的數據集進行了大量實驗, 結果證明了小冰樂隊的有效性。

貢獻

本文的貢獻總結如下:

  • 提出了一種端到端的多軌音樂生成系統,包括旋律和編曲。

  • 基於音樂知識,提出用和絃進行來指導旋律和通過節奏型來學習歌曲的結構。然後,使用節奏和旋律交叉生成方法進行音樂生成。

  • 在解碼器層的每一步使用其他任務狀態開發多任務聯合生成網 絡,這提高了生成質量並確保了多軌音樂的和諧。

  • 通過提供的大量實驗,我們的系統與其他模型表現更好的性能,人工評估也得到一致的結論。

工作與方法

小冰樂隊的相關工作可以分為兩類,即音樂生成和多任務學習。

最近,深度神經網絡已經通過端到端方法被應用於音樂生成,解決一些問題。雖然已經對音樂創作進行了廣泛的研究,但還沒有工作針對流行音樂的特性來進行研究。對於流行音樂的產生,以前的作品不考慮和絃進行和節奏型。而且,和絃進行通常引導旋律生成,節奏型決定該歌曲是否適合於歌唱。此外,流行音樂也應保留樂器特性。最後,和諧在多軌音樂中起著重要作用,但在之前的研究中並未得到很好的解決。

將小冰樂隊與幾個相關模型進行比較,結果顯示在下表中。


KDD 2018:中科大、蘇州大學與微軟的合作論文獲最佳學生論文獎

而多任務學習多任務學習通常用於共享特徵的相關任務,因為從一個任務中學習的特徵可能對其他任務有用。在以前的工作中,多任務學習已成功應用於機器學習的所有應用,從自然語言處理到計算機視覺。

接下來重點為大家介紹小冰樂隊的模型與方法。首先形式化定義音樂生成問題,然後介紹基於和絃的節奏和旋律交叉生成模型(CRMCG)的單軌音樂的結構和技術細節,以及用於多軌音樂的多樂器聯合編曲模型(MICA)。

▌問題定義:由於每個流行音樂都有特定的和絃進行,我們考慮在給定和絃進行條件下生成流行音樂的場景。因此,音樂生成任務的輸入是給定的和絃進行KDD 2018:中科大、蘇州大學與微軟的合作論文獲最佳學生論文獎。注意,Ci是和絃的向量表示,lc是序列的長度。我們的目標是生成合適的節奏

KDD 2018:中科大、蘇州大學與微軟的合作論文獲最佳學生論文獎和旋律KDD 2018:中科大、蘇州大學與微軟的合作論文獲最佳學生論文獎。為此,我們提出CRMCG用於單軌音樂,以及MICA用於多軌音樂來解決 這個問題。

KDD 2018:中科大、蘇州大學與微軟的合作論文獲最佳學生論文獎

圖4顯示了小冰樂隊的整體框架,它可以分為四個部分:

1)數據處理部分;

2)用於旋律生成的CRMCG部分(單軌);

3)用於編曲生成的MICA部分(多軌道);

4)顯示部分。

▌基於和絃的節奏和旋律交叉生成模型——CRMCG

旋律由一系列音符和相應的持續時間組成。這是流行音樂的基本組成部分。然而,生成和諧的旋律仍然具有挑戰性。此外,音符級別生成方法使得暫停具有更多隨機性,使音樂很難唱出來。因此,我們提出CRMCG來解決問題並生成合適的歌唱節奏。圖5給出了CRMCG架構。

KDD 2018:中科大、蘇州大學與微軟的合作論文獲最佳學生論文獎

給定和絃進行KDD 2018:中科大、蘇州大學與微軟的合作論文獲最佳學生論文獎,我們的目標是生成相應樂段

KDD 2018:中科大、蘇州大學與微軟的合作論文獲最佳學生論文獎。在樂段pi中生成的節奏Ri和旋律Mi與和絃ci密切相關。我們利用編碼器-解碼器框架作為我們的基本框架,因為它可以靈活地使用不同的神經網絡,例如循環神經網絡(RNN)和卷積神經網絡(CNN)來有效地處理序列。

為了更好地理解和絃進行並模擬這些和絃的相互作用和關係,我們利用門控遞歸單元(GRU)來處理和絃的低維表示。它們可以表述如下:

KDD 2018:中科大、蘇州大學與微軟的合作論文獲最佳學生論文獎

這裡,Ec是和絃的嵌入矩陣,隱藏狀態對每個和絃和序列上下文進行編碼。然後我們可以使用這些隱藏的狀態來幫助生成節奏和旋律。

具體來說,我們的生成處理可以分為兩部分:節奏生成(生成的節奏與現有的音樂部分相協調至關重要,因此,在這部分中,我們考慮了音樂的前一部分)和旋律生成(在生成當前節奏之後,我們可以利用該信息來生成旋律)。

由於生成過程可以分為兩部分,我們為每個部分設計兩個損失函數。損失函數都是交叉熵函數。根據模型的特點,我們可以通過參數相關性來交替更新參數。

▌多任務編曲模型

1)多樂器聯合編曲模型。在實際應用中,音樂包含多個音軌,例如鼓,貝斯,絃樂和吉他。為此,我們制定了一對多序列生成(OMSG)任務。與傳統的多序列學習不同,OSMG中生成的序列密切相關。當生成其中 一個序列時,我們應該考慮其與其他序列的和諧,節奏匹配和樂器特性。我們的目標是在音樂生成過程中模擬不同軌道之間的信息流,因而設計提出基於CRMCG的多樂器聯合編曲模型(MICA)。



KDD 2018:中科大、蘇州大學與微軟的合作論文獲最佳學生論文獎

給定旋律,我們著重生成更多的音軌來給旋律進行伴奏。如圖6(a)所示, 解碼器的隱藏狀態包含序列信息。因此,當為其中一個軌道生成音符時,它自然地引入了其他軌道的隱藏狀態,但是如何有效地集成它們仍然是一個挑戰。

為此,我們在解碼器的隱藏層之間設計了兩個單元:注意力單元和 MLP單元 (多層感知機單元)來解決這 個問題。

  • 注意力單元:受注意力機制的啟發,可以幫助模型關注輸入的最相關部分,我們設計了 一個創意性的注意力單元;

  • MLP單元:我們考慮每個樂器的個體隱藏狀態,並通過它們對整個音樂的重 要性進行整合,這是由門單元實現的。因此,模型可以選擇每個儀 器信息中最相關的部分來提高整性能。

2)損失函數:優化了若干條件概率項的總和,這些條件概率項以來自同一編碼器的表示為條件。

KDD 2018:中科大、蘇州大學與微軟的合作論文獲最佳學生論文獎

這裡KDD 2018:中科大、蘇州大學與微軟的合作論文獲最佳學生論文獎,m是任務數。θsrc是源編碼器的參數集合,KDD 2018:中科大、蘇州大學與微軟的合作論文獲最佳學生論文獎是第Tk個目標軌道的參數集。Np是第p個序列對的平行訓練語料庫的大小。


3)生成:在生成部分,安排CRMCG生成的旋律。

實驗

為了研究CRMCG和MICA的有效性,我們對收集的數據集進行了兩個任務的實驗:旋律生成和編曲生成。

▌數據描述

在本文中,我們在真實世界數據集上進行了實驗,該數據集由超過五萬個MIDI(數字分數格式)文件組成,並且為了避免偏差,那些不完整的 MIDI 文件,例如沒有聲道的音樂都被刪除。最後,我們的數據集中保存了14,077個MIDI文件。具體來說,每個MIDI文件包含各種類型的音軌,如旋律, 鼓,貝司和絃樂。

為了保證實驗結果的可靠性,我們對數據集進行了如下預處理。首先,我們將所有MIDI文件轉換為C大調或A小調,以保持所有音樂在同一曲調上。然後我們將所有音樂的BPM(每分鐘節拍)設置為60,這確保所有音符都是整數節拍。最後,我們將每2個小節併為一個樂段。下表中總結了修剪數據集的一些基本統計數據。

KDD 2018:中科大、蘇州大學與微軟的合作論文獲最佳學生論文獎

▌訓練細節

我們從數據集中隨機選擇9,855個實例作為訓練數據,另外2,815個用於 調整參數,最後1,407個作為測試數據來驗證性能以及更多生成的音樂。在我們的模型中,對於編碼器和解碼器中的每個GRU層,循環隱藏單元的數量設置為256。用於計算注意力單元和MLP單元中的隱藏向量的參數的維度被設置為256。使用隨機梯度下降算法更新模型,其中批量大小設置為64,並且根據驗證集上的交叉熵損失選擇最終模型。

▌旋律生成,CRMCG模型的性能

我們僅使用從原始MIDI音樂中提取的旋律軌跡來訓練模型並評估旋律軌跡生成結果的美學質量。基線方法選擇Magenta(RNN)&GANMidi(GAN),除了提出的CRMCG模型,我們還評估了模型的兩個變體,以驗證和絃進行和交叉訓練方法對旋律生成的重要性:CRMCG(有/無和絃進行)&CRMCG(有/無交叉訓練)

KDD 2018:中科大、蘇州大學與微軟的合作論文獲最佳學生論文獎

韻律(Rhythm): 音樂聽起來流暢而適當暫停嗎?

旋律(Melody): 音樂識別關係是否自然而和諧?

完整(Integrity): 音樂結構是否完整而不是突然中斷?

可唱性(Singability): 音樂適合用歌詞唱歌嗎?

▌編曲生成,MICA模型的性能

我們選擇多軌音樂生成中的五個最重要的任務,即旋律,鼓,貝斯,絃樂和吉他。基線方法為了驗證兩個 MICA 模型的性能,選擇相關模型HRNN 作為基線方法

KDD 2018:中科大、蘇州大學與微軟的合作論文獲最佳學生論文獎

性能如圖9所示。根據結果,通常,我們基於MLP單元的MICA模 型在所有指標上都實現了最佳性能。而且,從圖9(a)可以得出結論,鼓的任務具有最大的音符準確度,這證實鼓比其他樂器更容易學習。並且,如圖9(b)所示,與HRNN相比,我們基於MLP單元的MICA模型平均可以提高6.9%的質量。同時,從圖9(c)中,我們觀察到,我們基於MLP單元的MICA模型對音符分佈均方誤差具有最穩定的效果,這證明 我們的模型可以更好地學習樂器特性。最後,圖9(d)說明了我們基於MLP單元的MICA模型的穩健性,該模型可以保持高水平的生成結果。

KDD 2018:中科大、蘇州大學與微軟的合作論文獲最佳學生論文獎

結論

在本文中,我們提出了一種基於音樂知識的旋律和編曲生成框架,稱為小冰樂隊,它生成了同時伴隨的幾種樂器的旋律。對於旋律生成,我們設計了基於和絃的節奏和旋律交叉生成模型(CRMCG),其利用和絃進行來指導旋律進行,以及通過節奏型來學習歌曲的結構。對於編曲生成,在多任務學習的推動下,我們提出了一種用於多音軌音樂編曲的多樂器聯合編曲模型(MICA),它在解碼器層的每一步使用其他任務狀態來提高整個的性能並確保多軌音樂的和諧。通過大量實驗,無論是會自動指標還是人工評估,我們的系統與其他模型相比均表現出更好的性能,並且我們已經完成了圖靈測試並取得了良好的效果。此外,我們在互聯網上製作了流行音樂示例,展示了我們模型的應用價值。

KDD 2018:中科大、蘇州大學與微軟的合作論文獲最佳學生論文獎


分享到:


相關文章: