Stability AI 发布 Stability Audio 3.0

TechCrunch AI·5月20日 23:00 UTC·作者 Ivan Mehta

关键信息

small SFX 和 small 两个模型各有 459M 参数，适合在设备端生成最长两分钟的音效和音乐。medium 模型有 1.4B 参数，large 模型有 2.7B 参数，两者都能生成完整的 6 分 20 秒作品；其中 large 模型只能通过 API 和付费自托管服务使用，收入超过 100 万美元的公司还需要企业许可。

资讯摘要

Stability AI 是 Stable Diffusion 的开发公司，如今推出了一个新的音频模型系列，名为 Stability Audio 3.0。公司声称，其旗舰模型能够生成超过六分钟、达到专业级水准的音乐，这比上一代能力有了明显提升。此次发布共包含四个模型：small SFX、small、medium 和 large。两个较小的模型主要面向设备端音效和音乐生成，最长可输出两分钟音频。medium 和 large 模型则可以生成完整的 6 分 20 秒作品，并且保持音乐结构和旋律音色的连贯性。Stability AI 表示，这一长度是 2024 年发布的 Stable Audio 2.0 的两倍多。

公司把 small SFX、small 和 medium 以开放权重形式提供给用户，方便使用和修改。相比之下，large 模型只能通过 API 和付费自托管服务使用，而收入超过 100 万美元的公司还需要企业许可。Stability AI 还表示，这套新模型基于完全授权的数据训练，并且公司此前已经与 Warner Music Group 和 Universal Music Group 达成合作。与此同时，Stability AI 正在开发面向专业音乐人的新产品套件，但目前没有披露具体功能。前 Universal Audio 和 Fender 首席数字官 Ethan Kaplan 将加入公司，负责领导这条专业音乐产品线。

资讯正文

Stability AI，也就是 Stable Diffusion 背后的公司，正在推出一套新的音频模型家族，名为 Stability Audio 3.0。该公司声称，顶级模型可以生成超过 6 分钟的专业级音乐。

该公司将以 Stable Audio 3.0 之名发布四个新模型：small SFX（459M 参数）、small（459M 参数）、medium（1.4B 参数）和 large（2.7B 参数）。这两款 small 模型适合在设备端生成最长两分钟的音效和音乐。

medium 和 large 两个模型都可以创作完整的 6 分 20 秒作品，并且能够保持音乐结构和旋律基调。这比 2024 年发布的 Stable Audio 2.0 所能生成的最长时长多出一倍以上。

Stability AI 正在为 small SFX、small 和 medium 模型提供开放权重，供任何人使用和修改。2024 年，该公司发布了 Stable Audio Open，允许生成最长 47 秒的音乐。与此前的开源版本相比，这一新系列模型有了显著提升。

large 模型只能通过 API 以及自托管的付费服务获取。此外，年收入超过 100 万美元的公司还需要取得企业许可。

包括 Google 和 ElevenLabs 在内的许多公司都在推出与音乐生成相关的模型和工具。不过，正如 Suno 和 Udio 持续不断的诉讼所证明的那样，数据授权以及与音乐厂牌的合作，可能会成为这些服务长期生存的关键部分。

去年，Stability AI 与 Warner Music Group 和 Universal Music Group 签署了协议，共同开发模型和音乐创作工具。该公司表示，其最新一组音频模型构建于完全获得许可的数据之上。

这家 AI 初创公司正在开发一套面向专业音乐人的新产品，但并未透露更多功能细节。曾任 Universal Audio 和 Fender 首席数字官的 Ethan Kaplan 将加入公司，负责领导 Stability 的专业音乐业务。

不少 AI 公司都在通过聘请音乐行业高管来增强自身资历。今年早些时候，Suno 聘请前 Merlin CEO Jeremy Sirota 担任首席商务官。ElevenLabs 也聘请了来自独立音乐出版商 Kobalt 的 Derek Cournoyer，担任其音乐业务的战略负责人。

OpenAI推出用于个人理财的ChatGPT，将允许你连接银行账户

Ivan Mehta

来源与参考

收录于 2026-05-21