Stability AI 发布 Stability Audio 3.0
TechCrunch AI··作者 Ivan Mehta
关键信息
small SFX 和 small 两个模型各有 459M 参数,适合在设备端生成最长两分钟的音效和音乐。medium 模型有 1.4B 参数,large 模型有 2.7B 参数,两者都能生成完整的 6 分 20 秒作品;其中 large 模型只能通过 API 和付费自托管服务使用,收入超过 100 万美元的公司还需要企业许可。
资讯摘要
Stability AI 是 Stable Diffusion 的开发公司,如今推出了一个新的音频模型系列,名为 Stability Audio 3.0。公司声称,其旗舰模型能够生成超过六分钟、达到专业级水准的音乐,这比上一代能力有了明显提升。此次发布共包含四个模型:small SFX、small、medium 和 large。两个较小的模型主要面向设备端音效和音乐生成,最长可输出两分钟音频。medium 和 large 模型则可以生成完整的 6 分 20 秒作品,并且保持音乐结构和旋律音色的连贯性。Stability AI 表示,这一长度是 2024 年发布的 Stable Audio 2.0 的两倍多。
公司把 small SFX、small 和 medium 以开放权重形式提供给用户,方便使用和修改。相比之下,large 模型只能通过 API 和付费自托管服务使用,而收入超过 100 万美元的公司还需要企业许可。Stability AI 还表示,这套新模型基于完全授权的数据训练,并且公司此前已经与 Warner Music Group 和 Universal Music Group 达成合作。与此同时,Stability AI 正在开发面向专业音乐人的新产品套件,但目前没有披露具体功能。前 Universal Audio 和 Fender 首席数字官 Ethan Kaplan 将加入公司,负责领导这条专业音乐产品线。

资讯正文
Stability AI,也就是 Stable Diffusion 背后的公司,正在推出一套新的音频模型家族,名为 Stability Audio 3.0。该公司声称,顶级模型可以生成超过 6 分钟的专业级音乐。
该公司将以 Stable Audio 3.0 之名发布四个新模型:small SFX(459M 参数)、small(459M 参数)、medium(1.4B 参数)和 large(2.7B 参数)。这两款 small 模型适合在设备端生成最长两分钟的音效和音乐。
medium 和 large 两个模型都可以创作完整的 6 分 20 秒作品,并且能够保持音乐结构和旋律基调。这比 2024 年发布的 Stable Audio 2.0 所能生成的最长时长多出一倍以上。
Stability AI 正在为 small SFX、small 和 medium 模型提供开放权重,供任何人使用和修改。2024 年,该公司发布了 Stable Audio Open,允许生成最长 47 秒的音乐。与此前的开源版本相比,这一新系列模型有了显著提升。
large 模型只能通过 API 以及自托管的付费服务获取。此外,年收入超过 100 万美元的公司还需要取得企业许可。
包括 Google 和 ElevenLabs 在内的许多公司都在推出与音乐生成相关的模型和工具。不过,正如 Suno 和 Udio 持续不断的诉讼所证明的那样,数据授权以及与音乐厂牌的合作,可能会成为这些服务长期生存的关键部分。
去年,Stability AI 与 Warner Music Group 和 Universal Music Group 签署了协议,共同开发模型和音乐创作工具。该公司表示,其最新一组音频模型构建于完全获得许可的数据之上。
这家 AI 初创公司正在开发一套面向专业音乐人的新产品,但并未透露更多功能细节。曾任 Universal Audio 和 Fender 首席数字官的 Ethan Kaplan 将加入公司,负责领导 Stability 的专业音乐业务。
不少 AI 公司都在通过聘请音乐行业高管来增强自身资历。今年早些时候,Suno 聘请前 Merlin CEO Jeremy Sirota 担任首席商务官。ElevenLabs 也聘请了来自独立音乐出版商 Kobalt 的 Derek Cournoyer,担任其音乐业务的战略负责人。
OpenAI推出用于个人理财的ChatGPT,将允许你连接银行账户
OpenAI推出用于个人理财的ChatGPT,将允许你连接银行账户
Ivan Mehta
来源与参考
收录于 2026-05-21