Stable Audio 2.0发布!文本生成3分钟44.1 kHz音乐,音乐创作更加稳定!

科技 2024-04-04 11:14 阅读:18

4月4日,Stability.ai官网发布了音频模型Stable Audio 2.0,用户可以通过文本或音频一次性生成3分钟44.1kHz的摇滚、爵士、电子、嘻哈等20多种类型的高质量音乐。与之前的版本相比,Stable Audio 2.0的生成音乐时间得到了极大延长,这得益于Stability.ai使用了Diffusion transformer(DiT)替换了之前的U-Net架构。这项技术的应用使得音频的生成更加连贯,同时保留了音乐的基本特征。

DiT技术能够将随机噪音逐步细化为结构化数据,识别出复杂的模式和关系。结合自动编码器的应用,Stable Audio 2.0能够处理更长的音频序列,并准确地解读、还原用户输入的提示文本。此外,Stable Audio 2.0使用了超过80万个音频文件组成的数据集,总计超过1.95万小时的音频,与知名音乐服务商AudioSparx合作,生成的音乐可以用于商业化。

根据“AIGC开放社区”的使用体验,Stable Audio 2.0生成音乐的效率得到了显著提升,平均生成一个3分钟音乐只需1分钟左右的时间。用户可以选择不同格式的音频进行下载,满足不同需求。

除了生成冥想背景音乐,用户还可以尝试生成适合体育赛事的激情音乐或者热带主题音乐,让人们在不同场景中感受音乐的魅力。Stable Audio 2.0免费赠送20积分,生成的音乐可以商业化,为视频自媒体用户提供了更多创作可能。

总的来说,Stable Audio 2.0的发布为音乐创作带来了更多可能性,用户可以通过简单的操作生成高质量音乐,体验音乐创作的乐趣。如果您对音乐创作感兴趣,不妨前往Stability.ai官网试用一下Stable Audio 2.0,感受音乐创作的乐趣吧!