AI大佬放大招:Stability AI正式推出音频生成工具Stable Audio
【ashkeling专稿,未经授权不得转载!】
ashkeling报道/继推出文生图模型Stable Diffusion后,AIGC领域的明星初创公司Stability AI在近日推出了全新产品Stable Audio,入局了音频生成赛道。
Stable Audio由Stability AI内部的声音实验室Harmonai研发,采用了与Stable Diffusion类似的扩散模型技术。据了解,此次Stable Audio训练所采用的数据集授权自合作伙伴AudioSparx,包含时长19500小时的80万条音频文件。
ashkeling此前曾报道过一众AI音频生成产品。如谷歌的开源模型MusicLM、AIVA、基于机器学习的Mubert等,Meta也在今年8月开源了音频生成模型AudioCraft。
与Stable Diffusion一样,该产品同样采用自然语言生成模式,用户可以输入一系列词语,对音乐的流派、速度、配器、情绪甚至应用场景进行指定。如用户可以输入“迪斯科,合成器,鼓机,120BPM,器乐,钢琴,吉他”。
Stability AI并未在官方页面中指明Stable Audio可生成的音乐流派,不过从ashkeling的试听感受上来看,该产品在EDM、氛围音乐、Disco等电子音乐上表现更好,而在爵士、摇滚等注重器乐的音乐上较为薄弱。
在商业化上,Stability AI开启了与Midjourney类似的包月订阅模式,推出了付费与免费两个档位。免费档允许用户每月生成20条音频,持续时长45秒,且不可商用;定价11.99美元的档位则允许用户每月生成500条最高90秒音频文件,并可用于商业项目。
Stability AI此次并未对Stable Audio模型进行开源,这与该公司一贯拥抱开源社区的作风不一致,一些观察者猜测或是与训练集的授权协议有关。不过Stablity AI承诺,Harmonai将在未来开源另一款使用不同数据训练的模型,将基于Stable Audio的代码,允许用户自行训练音频模型。
而Stability AI同时还表示,该公司对音频训练的方式进行了改进:“音频扩散模型往往在较长的音频文件中截取区块并进行训练,以适应扩散模型的训练时长。”这种训练方法或导致生成的音乐缺头去尾。而Stable Audio在训练时参照了音频的文字元数据,持续时长和开始时间,因此可以该产品可以对任意时间的音频进行生成。
Stability AI在声明中表示:“Stable Audio代表着Stability AI对音频生成研究的前沿水平。我们将持续对模型架构,数据集和训练方式进行迭代,提升输出的品质、可操控性、输出速度与输出时长。”
随着Stablity AI的入局,AI音频生成的赛道再加一员干将。随着游戏开发规格不断提升,厂商对游戏配乐的要求也在随之上涨。在游戏界推进AIGC应用的如今,AI音频生成或许也将成为一个重要的发展方向。
不过,在ashkeling看来,AI音频生成技术在游戏界的地位有些尴尬。最显著的原因是,大部分游戏厂商对游戏音频的重视程度仍然不足。即便是一线大厂,对音频部门投入的预算至多不过千万元人民币。相较于动辄数百人的美术团队,大部分厂商的音频团队仅有个位数成员,乃至于完全采用外包模式。
在产值有限的情况下,AIGC能带来的降本效果并不突出,大厂投入研发资源的意愿也会相应受限,市场规模也难以撑起面向游戏开发场景专门研发的第三方AI产品。
此外,AIGC产品还要与高度成熟的商业音效库、音乐库以及较为廉价高效的音频外包相竞争。而在高规格产品这片日益重要的市场,越来越多头部厂商开始投资自建内部的配乐团队,而AIGC又难以从品质上与高规格的商业作曲团队相匹敌。
而或许,随着生成模型的不断迭代,未来AI生成的音乐内容将在品质和可用性上有着较大的提升,乃至于真正实现足不出户打造大师级配乐。从AI文生图产品的发展历程上来看,如果能够借助开源社区的广泛力量持续迭代,达成这样的效果并非天方夜谭。而届时,游戏界也必然会主动拥抱AI音频产品。
如若转载,请注明出处:http://www.ashkeling.com/2023/09/527887