AWS DeepComposer 为何能用 AI 协助音乐创作?

2019年11月AWS例行技术年会re:Invent活动中,AWS正式发表DeepComposer的MIDI键盘,售价99美元。AWS宣称该键盘搭配人工智能(AI)技术可以协助新曲创作,这到底是怎么一回事?关于此需要先从生成对抗网络(Generative Adversarial Network, GAN)谈起。

AWS DeepComposer 为何能用 AI 协助音乐创作?

何为GAN?

在AI技术发展历程中GAN算是极新的玩意儿,约在2014年提出,在此之前AI技术多在于训练一个能发挥判别或预测作用的模型,为了训练模型必须先喂给模型足够的正确资料,甚至对资料进行正确标记,模型训练完成后,便能对后续的新资料给予评判推断(inference),如资料是真是假?或真假可能性是多少?

上述的训练方式必须有大量取自真实世界的资料,但如果资料没那么多呢?这时GAN即派上用场,GAN一开始会以随机方式制造一些以假乱真的资料,与原本的真实资料一同喂入判别模型内,判别模型得到足够量的资料进行学习而后判别,并判别出GAN产生的资料为假资料,判别结果会回馈给GAN。

GAN为了避开被模型辨认出为假资料,在后续产生的资料上会再行精进变化,变化出能够欺骗过判别模型的新方法,而后判别模型也再进化,进化成可以辨认出GAN新产生的伪造资料,如此一来一往,有「魔高一尺、道高一丈」的意味。

AWS DeepComposer 为何能用 AI 协助音乐创作?

GAN生成对抗网络原理示意图

GAN可以用在反面资料不足的情况,例如多数的信用卡交易资料都是正常的,盗刷交易的资料相对稀少,如此要训练出一个能够判别盗刷行为的模型则有资料量不足的麻烦,难以成熟训练,这时运用GAN可以产生一些假造的交易资料,以便模型训练能顺利些。

或者,正常无害的程序很多,恶意程序相对为少,这时要训练出一个能侦测出恶意程序的模型就相当困难,对此同样可以用GAN来产生不正常、带有恶意危害的程序以利训练。GAN听来很厉害,但现阶段其实变化能力也有限,无法假造出很复杂的相片内容或很复杂的数据等。

向真实趋近模仿学习

回归正题,GAN与AWS DeepComoser键盘有何关系呢?其实DeepComposer即是运用GAN的「自行变化以求通关」特性来协助创作,只是把「对抗」意味改以「向真实趋近模彷学习」的意味来诠释,AWS称此为Generative AI(生成/产生型人工智能)。

AWS DeepComposer已经在云端上提供了四个事先训练好的曲风生成模型,分别是流行(Pop)、爵士(Jazz)、摇滚(Rock)以及古典(Classical)。一旦创作者通过AWS DeepComposer键盘输入自己创作的音乐旋律到判别模型后,判别模型就会推论出结果,并把结果回馈给生成模型,如此反复循环的结果生成模型即可产生出逼真且呼应人为创作旋律的伴奏音乐。

一开始生成模型还无法产生出切合模型推论的正确结果,听起来有可能根本是乱吹奏一通,但随着推论结果的回馈,生成模型的再训练与参数调整等程序,生成模型逐渐可以产生出高度欺骗过判别模型的资料,此资料即已非常切合创作者旋律的乐器伴奏,并以钢琴、鼓、吉他等各种乐器展现生成乐。此外,如果创作者不喜欢上述四种已训练好的曲风模型,也可以自行再建立与训练出另一种曲风模型。

AWS DeepComposer 为何能用 AI 协助音乐创作?

AWS DeepComposer已提供训练好的四种曲风模型或可自建生成模型。


AWS DeepComposer 为何能用 AI 协助音乐创作?

曲风生成模型正在推论(生成)不同乐器的伴奏乐。

AWS DeepComposer是实体MIDI键盘,创作者通过键盘弹奏、输入正确的资料给爵士、古典等曲风判别模型,实际路径其实是键盘上有USB用来接上电脑,通过电脑传递到云端上的主控台。

在主控台上创作者可以运用AWS SageMaker来调整模型,使其更合乎自身需求,即训练模型,而后运用Digital Audio Workstation(DAW)来创作和自订由AI生成的音乐。

AWS DeepComposer 为何能用 AI 协助音乐创作?

AWS DeepComposer主控台。

音乐生成且满意后,创作者也可以通过简单步骤把新作分享到德国SoundCloud网站,需另建立一个帐号)上,或者提交到AWS的Generative AI Talent Show(生成AI人才秀)上,告知世人您刚刚完成新作。

没有白吃的午餐

AWS DeepComposer听来挺不错,但短时间内可能要失望,因为定价仅99美元的DeepComposer目前仅限美国地区供货,所幸AWS也提供线上虚拟版的DeepComposer键盘,效果类同于实体键盘,只是可能要用电脑键盘模拟音乐键盘的方式操作。另外,有关DeepComposer管理主控台或虚拟键盘都必须在美国东部(维吉尼亚州北部)的机房内执行运作,从中国连线过去可能速率比较慢、延迟多一点。

在音乐创作上,创作者完成的新作品不一定要上传提交,也可以以MIDI格式输出、下载到本地端,反而是创作者自己输入的旋律还没有办法输出,但AWS官方已承诺未来服务更成熟后也能输出。

AWS提出DeepComposer除了销售实体键盘外,很大一个动机仍在于扩展销售其公有云服务,使用DeepComposer训练每小时收费1.26美元,使用DeepComposer推论每小时收费2.14美元。

AWS依然提供许多免费用量与免费试用,例如免费一年内推论500次、免费一个月内建立40首新作,若有买实体键盘者还可以从免费一个月扩展成三个月。AWS也提供一些参考时间,如训练一次约8小时,推论一次约1分钟等。

小结

最后,AWS提出DeepComposer后再回头看其提出的DeepRacer/DeepRacer Evo,可发现AWS的AI策略不同于他厂,其他厂商多看重在推展监督、非监督式的学习应用技术,AWS则是通过DeepRacer推展增强型学习技术,以及通过DeepComposer推展生成对抗网络技术。

另外多数业者期望AI技术一起头便能发展出能解决产业问题的应用,AWS反而以DeepRacer玩具车竞赛(只求高分力求模型学习成长)、DeepComposer音乐创作(没有对错,主观觉得悦耳与否)来推展,以竞赛娱乐等不严肃的态度来推展。只要有人摸索尝试玩具车与键盘就可以卖,云端服务也就可以收费,何乐不为呢?


分享到:


相關文章: