Обновление SVD 1.1 для создания последовательных видеороликов

Обновлено 06 февраля 2024 - 1 год назад. Venturebeat.com.

Оглавление

Чего ожидать от Stability AI's SVD 1.1?
Реальные видеоролики с искусственным интеллектом еще предстоит увидеть

Компания Stability AI, известная своим растущим набором моделей ИИ с открытым исходным кодом для создания и кодирования контента, сегодня объявила об обновлении своей модели скрытой диффузии изображений в видео, Stable Video Diffusion (SVD).

Обновленная модель, получившая название SVD 1.1, представляет собой доработанную версию SVD 1.0, оптимизированную для создания коротких видеороликов с искусственным интеллектом, отличающихся лучшей подвижностью и последовательностью.

В сообщении, анонсирующем обновление, Том Мейсон, технический директор Stability AI, подтвердил, что новая модель доступна для публичного использования и может быть загружена через Hugging Face.

Он также отметил, что модель будет предоставляться в рамках подписки Stability, которая имеет различные уровни для индивидуальных и корпоративных пользователей, включая бесплатный, 20 долларов в месяц и выше. Для пользователей, желающих развернуть новую версию SVD 1.1 в коммерческих целях, необходимо будет оформить членство.

Чего ожидать от Stability AI's SVD 1.1?

Еще в ноябре 2023 года компания Stability выпустила две модели для AI-видео: SVD и SVD-XT. Первая была базовой моделью, которая принимала в качестве исходного кадра неподвижное изображение и генерировала из него четырехсекундное видео с 14 кадрами, а вторая была усовершенствованной версией, которая работала аналогичным образом, но генерировала до 25 кадров.

Теперь, доработав SVD-XT, Stability представила SVD 1.1. Эта модель, по словам компании, также генерирует четырехсекундные видеоролики с 25 кадрами, но в разрешении 1024×576 при наличии контекстного кадра такого же размера.

Более того, ожидается, что эта модернизация обеспечит более стабильный выход видео по сравнению с оригинальной моделью.

Например, во многих случаях SVD и SVD-XT не обеспечивали фотореалистичность, создавали видео без движения или с очень медленными поворотами камеры и не создавали лица и людей в соответствии с ожиданиями пользователей. Ожидается, что все это исчезнет с выходом SVD 1.1, который обещает добиться лучшей передачи движения в выходных данных.

"Тонкая настройка (для SVD 1.1) была проведена с фиксированными условиями при 6FPS и motion bucket Id 127, чтобы улучшить согласованность результатов без необходимости настройки гиперпараметров. Эти условия по-прежнему настраиваются и не были удалены. Производительность вне фиксированных настроек кондиционирования может отличаться по сравнению с SVD 1.0", - отмечает компания на странице нового режима Hugging Face.

Реальные видеоролики с искусственным интеллектом еще предстоит увидеть

Хотя Stability заявляет об улучшении производительности SVD 1.1, еще предстоит выяснить, как именно это работает на практике. На странице Hugging Face, посвященной модели, отмечается, что она предназначена для исследовательских целей, а также предупреждается, что некоторые из первоначальных проблем все еще могут проявляться.

Примечательно, что помимо Hugging Face, модели Stable Video Diffusion также можно использовать через API, доступный на платформе разработчиков Stability AI. Это дает разработчикам возможность легко интегрировать передовую генерацию видео в свои продукты.

"...Мы выпустили Stable Video Diffusion API, который генерирует 4 секунды видео со скоростью 24 кадра в секунду в формате MP4, включая 25 сгенерированных кадров и оставшиеся интерполированные кадры. Мы поддерживаем контроль силы движения и несколько вариантов компоновки и разрешения, включая 1024×576, 768×768 и 576×1024", - отметил Мейсон в своем сообщении.

В прошлом году компания Stability AI подняла планку генеративного ИИ благодаря частым выпускам моделей. 2024, похоже, тоже идет по этому пути. Компания была основана в 2019 году и привлекла значительное финансирование, включая раунд в 101 миллион долларов, о котором было объявлено в 2022 году. Однако она не единственная, кто работает в этом пространстве. Конкурирующие предложения от Runway и Pika также набирают обороты, особенно благодаря своим веб-платформам, ориентированным на клиентов, которые не только генерируют видео, но и предоставляют возможность легко настраивать их и повышать уровень.

Недавно конкурент Runway представил на своей платформе кисть Multi Motion Brush, позволяющую пользователям добавлять движение к определенным частям своих видео с искусственным интеллектом. Другая компания, занимающаяся созданием ИИ-видео, Pika, позволяет пользователям изменять определенные области в своих видео, например, менять коровье лицо на утиное. Однако обе эти платформы до сих пор не предлагают свои модели через API, что не позволяет разработчикам интегрировать их в свои приложения.

Эта статья является экземпляром Текста-спринтера. Такие тексты отлично продвигают сайты в ТОП органического поиска Яндекс и Google. Здесь я пишу об этом более подробно.