ob电竞·(中国)电子竞技平台

【ashkeling专稿，未经授权不得转载！】

ashkeling报道/继推出文生图模型Stable Diffusion后，AIGC领域的明星初创公司Stability AI在近日推出了全新产品Stable Audio，入局了音频生成赛道。

Stable Audio由Stability AI内部的声音实验室Harmonai研发，采用了与Stable Diffusion类似的扩散模型技术。据了解，此次Stable Audio训练所采用的数据集授权自合作伙伴AudioSparx，包含时长19500小时的80万条音频文件。

ashkeling此前曾报道过一众AI音频生成产品。如谷歌的开源模型MusicLM、AIVA、基于机器学习的Mubert等，Meta也在今年8月开源了音频生成模型AudioCraft。

与Stable Diffusion一样，该产品同样采用自然语言生成模式，用户可以输入一系列词语，对音乐的流派、速度、配器、情绪甚至应用场景进行指定。如用户可以输入“迪斯科，合成器，鼓机，120BPM，器乐，钢琴，吉他”。

从试听效果来看，相较于竞争对手，Stable Audio在声音品质上有着较为长足的进步，较少出现AI生成音频中常有的嘈杂感、压缩感。但与人工创作的音乐相比，在音乐的配器上仍显得有些杂乱。

Stability AI并未在官方页面中指明Stable Audio可生成的音乐流派，不过从ashkeling的试听感受上来看，该产品在EDM、氛围音乐、Disco等电子音乐上表现更好，而在爵士、摇滚等注重器乐的音乐上较为薄弱。

在商业化上，Stability AI开启了与Midjourney类似的包月订阅模式，推出了付费与免费两个档位。免费档允许用户每月生成20条音频，持续时长45秒，且不可商用；定价11.99美元的档位则允许用户每月生成500条最高90秒音频文件，并可用于商业项目。

Stability AI此次并未对Stable Audio模型进行开源，这与该公司一贯拥抱开源社区的作风不一致，一些观察者猜测或是与训练集的授权协议有关。不过Stablity AI承诺，Harmonai将在未来开源另一款使用不同数据训练的模型，将基于Stable Audio的代码，允许用户自行训练音频模型。

而Stability AI同时还表示，该公司对音频训练的方式进行了改进：“音频扩散模型往往在较长的音频文件中截取区块并进行训练，以适应扩散模型的训练时长。”这种训练方法或导致生成的音乐缺头去尾。而Stable Audio在训练时参照了音频的文字元数据，持续时长和开始时间，因此可以该产品可以对任意时间的音频进行生成。

Stability AI在声明中表示：“Stable Audio代表着Stability AI对音频生成研究的前沿水平。我们将持续对模型架构，数据集和训练方式进行迭代，提升输出的品质、可操控性、输出速度与输出时长。”

随着Stablity AI的入局，AI音频生成的赛道再加一员干将。随着游戏开发规格不断提升，厂商对游戏配乐的要求也在随之上涨。在游戏界推进AIGC应用的如今，AI音频生成或许也将成为一个重要的发展方向。

不过，在ashkeling看来，AI音频生成技术在游戏界的地位有些尴尬。最显著的原因是，大部分游戏厂商对游戏音频的重视程度仍然不足。即便是一线大厂，对音频部门投入的预算至多不过千万元人民币。相较于动辄数百人的美术团队，大部分厂商的音频团队仅有个位数成员，乃至于完全采用外包模式。

在产值有限的情况下，AIGC能带来的降本效果并不突出，大厂投入研发资源的意愿也会相应受限，市场规模也难以撑起面向游戏开发场景专门研发的第三方AI产品。

此外，AIGC产品还要与高度成熟的商业音效库、音乐库以及较为廉价高效的音频外包相竞争。而在高规格产品这片日益重要的市场，越来越多头部厂商开始投资自建内部的配乐团队，而AIGC又难以从品质上与高规格的商业作曲团队相匹敌。

而或许，随着生成模型的不断迭代，未来AI生成的音乐内容将在品质和可用性上有着较大的提升，乃至于真正实现足不出户打造大师级配乐。从AI文生图产品的发展历程上来看，如果能够借助开源社区的广泛力量持续迭代，达成这样的效果并非天方夜谭。而届时，游戏界也必然会主动拥抱AI音频产品。

如若转载，请注明出处：http://www.ashkeling.com/2023/09/527887

ob电竞·(中国)电子竞技平台

AI大佬放大招：Stability AI正式推出音频生成工具Stable Audio

相关推荐