Как обечпечить четкость и мощь звука с помощью Stable Audio 2.0?
Обновлено 20 января 2025 - 2 месяца назад. Venturebeat.com.
Компания Stability AI продолжает развивать свое видение генеративного искусственного интеллекта, представив сегодня аудиомодель Stable Audio 2.0.
Stability AI, возможно, наиболее известна своими моделями Stable Diffusion, превращающими текст в изображение, но это лишь одна из многих моделей, над которыми работает компания. Stable Audio впервые вышла в сентябре 2023 года, представив пользователям возможность генерировать короткие аудиоклипы с помощью простой текстовой подсказки. В версии Stable Audio 2.0 пользователи могут создавать высококачественные аудиоклипы продолжительностью до 3 минут, что вдвое больше, чем 90 секунд в первоначальном выпуске Stable Audio.
В дополнение к поддержке преобразования текста в аудио, Stable Audio 2.0 также будет поддерживать генерацию аудио в аудио, когда пользователи загружают образец, который они хотят использовать в качестве подсказки. Stability AI предоставляет Stable Audio в ограниченное бесплатное пользование на сайте Stable Audio, а в ближайшее время будет открыт доступ к API, чтобы разработчики могли создавать сервисы.
Новый релиз Stable Audio 2.0 - это первое крупное обновление модели от Stability AI с тех пор, как бывший генеральный директор и основатель компании Эмад Мостаке внезапно покинул свой пост в конце марта. По словам представителей компании, она по-прежнему работает в обычном режиме, и обновление Stable Audio 2.0 является тому подтверждением.
Уроки, извлеченные из Stable Audio 1.0, стали известны в версии 2.0
В 2023 году Stability AI итерировал свой первоначальный опыт разработки Stable Audio.
Зак Эванс, руководитель отдела аудиоисследований в Stability AI, рассказал VentureBeat, что при выпуске Stable Audio 1.0 основное внимание уделялось созданию революционной генеративной модели преобразования текста в звук с исключительной точностью звучания и значимой продолжительностью вывода.
"С момента выхода первой версии мы посвятили себя улучшению его музыкальности, увеличению продолжительности вывода и оттачиванию способности точно реагировать на подробные подсказки", - говорит Эванс. "Эти усовершенствования направлены на оптимизацию технологии для практического применения в реальном мире".
В Stable Audio 2.0 реализована возможность создания полноценных музыкальных треков с целостной музыкальной структурой. Используя технологию скрытой диффузии, модель может генерировать композиции длиной до 3 минут, содержащие отчетливые вступление, развитие и заставку. Это шаг вперед по сравнению с предыдущей версией Stable Audio, которая могла создавать только короткие циклы или фрагменты, а не полноценные композиции.
Если посмотреть на науку машинного обучения (ML), лежащую в основе Stable Audio 2.0, то модель по-прежнему опирается на так называемую модель скрытой диффузии (LDM). Эванс объяснил, что с момента выхода бета-версии Stable Audio 1.1, которая появилась в декабре, Stable Audio имеет трансформаторную основу, что делает ее так называемой "диффузионной трансформаторной" моделью.
"Мы также увеличили степень сжатия данных, применяемую к аудиоданным во время обучения, что позволило нам увеличить время вывода модели до трех минут и более, сохранив при этом приемлемое время вывода", - говорит Эванс.
Преобразование аудиообразцов с помощью текстовых подсказок
Помимо генерации звука из текстовых подсказок, Stable Audio 2.0 позволяет осуществлять переходы от звука к звуку.
Пользователи могут загружать аудиообразцы и использовать инструкции на естественном языке для преобразования звуков в новые вариации. Это открывает возможности для творческих рабочих процессов, таких как итеративная доработка и редактирование аудио с помощью текстовых инструкций.
В Stable Audio 2.0 также значительно расширен спектр звуковых эффектов и текстур, которые могут быть созданы с помощью искусственного интеллекта. Пользователи могут попросить систему сгенерировать иммерсивное окружение, текстуры окружающей среды, толпы людей, городские пейзажи и многое другое. Модель также позволяет изменять стиль и тон сгенерированных или загруженных аудиообразцов.
Авторское право имеет значение для аудиозаписей поколения ИИ
В сфере генетического ИИ постоянно возникает вопрос о правильном использовании исходных материалов для обучения модели.
В своей новой аудиомодели Stability AI уделяет приоритетное внимание защите интеллектуальной собственности. Для решения проблем с авторскими правами Stable Audio 2.0 обучалась исключительно на лицензионных данных AudioSparx, при этом запросы на отказ от использования данных принимались во внимание. Загрузка аудиоматериалов контролируется с помощью распознавания контента, чтобы предотвратить обработку материалов, защищенных авторским правом.
Защита авторских прав очень важна для того, чтобы Stability AI могла коммерциализировать Stable Audio, а технология могла безопасно использоваться организациями. В настоящее время Stable Audio монетизируется через подписку на веб-приложение Stable Audio, а вскоре будет доступна через Stable Audio API.
Однако Stable Audio не является открытой моделью, по крайней мере, пока.
"Stable Audio 2.0 не будет доступен для скачивания; однако мы работаем над открытыми аудиомоделями, которые будут выпущены позже в этом году", - сказал Эванс.
Эта статья является экземпляром Текста-спринтера. Такие тексты отлично продвигают сайты в ТОП органического поиска Яндекс и Google. Здесь я пишу об этом более подробно.

Искренне Ваш,
Nikita Interactive
Это реальная история!
Раздел с Текстами-спринтерами привлек 18 090 пользователей за 9 месяцев.
На новом сайте. Без ссылок.
Измеримые результаты и устойчивый успех.