Как обечпечить четкость и мощь звука с помощью Stable Audio 2.0?

Обновлено 20 января 2025 - 1 год назад. Источник - Venturebeat.com.

Оглавление

Преобразование аудиообразцов с помощью текстовых подсказок
Авторское право имеет значение для аудиозаписей поколения ИИ

Компания Stability AI продолжает развивать свое видение генеративного искусственного интеллекта, представив сегодня аудиомодель Stable Audio 2.0.

Stability AI, возможно, наиболее известна своими моделями Stable Diffusion, превращающими текст в изображение, но это лишь одна из многих моделей, над которыми работает компания. Stable Audio впервые вышла в сентябре 2023 года, представив пользователям возможность генерировать короткие аудиоклипы с помощью простой текстовой подсказки. В версии Stable Audio 2.0 пользователи могут создавать высококачественные аудиоклипы продолжительностью до 3 минут, что вдвое больше, чем 90 секунд в первоначальном выпуске Stable Audio.

В дополнение к поддержке преобразования текста в аудио, Stable Audio 2.0 также будет поддерживать генерацию аудио в аудио, когда пользователи загружают образец, который они хотят использовать в качестве подсказки. Stability AI предоставляет Stable Audio в ограниченное бесплатное пользование на сайте Stable Audio, а в ближайшее время будет открыт доступ к API, чтобы разработчики могли создавать сервисы.

Новый релиз Stable Audio 2.0 - это первое крупное обновление модели от Stability AI с тех пор, как бывший генеральный директор и основатель компании Эмад Мостаке внезапно покинул свой пост в конце марта. По словам представителей компании, она по-прежнему работает в обычном режиме, и обновление Stable Audio 2.0 является тому подтверждением.

Уроки, извлеченные из Stable Audio 1.0, стали известны в версии 2.0

В 2023 году Stability AI итерировал свой первоначальный опыт разработки Stable Audio.

Зак Эванс, руководитель отдела аудиоисследований в Stability AI, рассказал VentureBeat, что при выпуске Stable Audio 1.0 основное внимание уделялось созданию революционной генеративной модели преобразования текста в звук с исключительной точностью звучания и значимой продолжительностью вывода.

"С момента выхода первой версии мы посвятили себя улучшению его музыкальности, увеличению продолжительности вывода и оттачиванию способности точно реагировать на подробные подсказки", - говорит Эванс. "Эти усовершенствования направлены на оптимизацию технологии для практического применения в реальном мире".

В Stable Audio 2.0 реализована возможность создания полноценных музыкальных треков с целостной музыкальной структурой. Используя технологию скрытой диффузии, модель может генерировать композиции длиной до 3 минут, содержащие отчетливые вступление, развитие и заставку. Это шаг вперед по сравнению с предыдущей версией Stable Audio, которая могла создавать только короткие циклы или фрагменты, а не полноценные композиции.

Если посмотреть на науку машинного обучения (ML), лежащую в основе Stable Audio 2.0, то модель по-прежнему опирается на так называемую модель скрытой диффузии (LDM). Эванс объяснил, что с момента выхода бета-версии Stable Audio 1.1, которая появилась в декабре, Stable Audio имеет трансформаторную основу, что делает ее так называемой "диффузионной трансформаторной" моделью.

"Мы также увеличили степень сжатия данных, применяемую к аудиоданным во время обучения, что позволило нам увеличить время вывода модели до трех минут и более, сохранив при этом приемлемое время вывода", - говорит Эванс.

Преобразование аудиообразцов с помощью текстовых подсказок

Помимо генерации звука из текстовых подсказок, Stable Audio 2.0 позволяет осуществлять переходы от звука к звуку.

Пользователи могут загружать аудиообразцы и использовать инструкции на естественном языке для преобразования звуков в новые вариации. Это открывает возможности для творческих рабочих процессов, таких как итеративная доработка и редактирование аудио с помощью текстовых инструкций.

В Stable Audio 2.0 также значительно расширен спектр звуковых эффектов и текстур, которые могут быть созданы с помощью искусственного интеллекта. Пользователи могут попросить систему сгенерировать иммерсивное окружение, текстуры окружающей среды, толпы людей, городские пейзажи и многое другое. Модель также позволяет изменять стиль и тон сгенерированных или загруженных аудиообразцов.

Авторское право имеет значение для аудиозаписей поколения ИИ

В сфере генетического ИИ постоянно возникает вопрос о правильном использовании исходных материалов для обучения модели.

В своей новой аудиомодели Stability AI уделяет приоритетное внимание защите интеллектуальной собственности. Для решения проблем с авторскими правами Stable Audio 2.0 обучалась исключительно на лицензионных данных AudioSparx, при этом запросы на отказ от использования данных принимались во внимание. Загрузка аудиоматериалов контролируется с помощью распознавания контента, чтобы предотвратить обработку материалов, защищенных авторским правом.

Защита авторских прав очень важна для того, чтобы Stability AI могла коммерциализировать Stable Audio, а технология могла безопасно использоваться организациями. В настоящее время Stable Audio монетизируется через подписку на веб-приложение Stable Audio, а вскоре будет доступна через Stable Audio API.

Однако Stable Audio не является открытой моделью, по крайней мере, пока.

"Stable Audio 2.0 не будет доступен для скачивания; однако мы работаем над открытыми аудиомоделями, которые будут выпущены позже в этом году", - сказал Эванс.

Эта статья является экземпляром CROSS-текста. Такие тексты отлично продвигают сайты в ТОП органического поиска Яндекс и Google. Здесь я пишу об этом более подробно.