Stable Diffusion快无敌了?继图片/音频之后,发布短视频AIGC功能
【ashkeling专稿,未经授权不得转载!】
ashkeling报道/近日,AI初创公司Stability.AI的子公司Stability.AI在其官方网站上宣布推出了最新的AI视频生成模型——Stable Video Diffusion。这一模型是在Stability.AI之前发布的AI图片生成模型Stable Diffusion和AI音频生成模型Stable Audio基础上的最新发布,至此,Stability.AI几乎实现了对媒体内容生成的全覆盖。
目前该模型已经可以在Github和Huggingface上下载。
Stable Video Diffusion有两种模型形式:SVD和SVD-XT。SVD将静态图像转换为14帧的576×1024视频,而SVD-XT则将帧数增加到24。据悉,Stability.AI最初在包含数百万个视频的数据集上进行了训练,随后在包含数十万到一百万个剪辑的较小集合上进行了微调。然而,关于训练视频的确切来源仍然不明确,这引发了一些关于版权问题的担忧。
尽管Stable Video Diffusion具有一定的局限性,如不能生成没有运动或快速摄像机移动的视频,但它在生成高质量的四秒片段方面表现出色,与业界其他主流模型相媲美。
Stability.AI表示,Stable Video Diffusion的未来发展方向包括推出“一系列”基于SVD和SVD-XT的模型,并计划推出一个“文本到视频”工具,将文本提示引入网络模型。该公司强调,Stable Video Diffusion具有潜在的广告、教育和娱乐应用。
然而,Stability.AI最近面临了一些挑战,包括高管的离职和财务压力。该公司的音频副总裁Ed Newton-Rex因为与模型训练数据版权问题产生分歧而辞职。此外,据报道,Stability AI一度面临现金流问题,导致AWS威胁要撤销其对GPU实例的访问权限。
在AI领域,Stability.AI并非唯一一家持续努力推动产品路线图的初创公司。然而,Stable Video Diffusion的推出标志着该公司对生成媒体内容领域的持续投入,并表明其在商业化上的雄心。
在这个AI热潮中,Stability.AI的一系列工具和模型,因其普遍开源的特性,对于游戏行业可能带来深远影响。游戏公司可以在Stability.AI公布的基础模型上进行精细调整,以快速生成各种场景所需的视频素材。此外,广告公司也可以利用Stable Video Diffusion等工具,快速生成各种买量广告素材,提高广告创作的效率和创意。
除了Stable Video Diffusion,Stability.AI还推出了Stable Audio,进一步拓展了其影响范围。Stable Audio由Stability.AI内部的声音实验室Harmonai研发,采用了与Stable Diffusion类似的扩散模型技术。该模型在音频生成领域也取得了一定的成就,但与此同时,公司也面临一些商业化和版权的挑战。
综合而言,Stability.AI的一系列工具和模型为媒体内容生成领域带来了新的可能性,在未来,随着这些模型的不断发展和完善,它们可能成为游戏行业和广告行业关键工具。
如若转载,请注明出处:http://www.ashkeling.com/2023/11/532497