Stable Video Diffusion теперь доступна через Stability AI API

Обновлено 21 декабря 2023 - 1 год назад. Venturebeat.com.

Оглавление

Для начала давайте разберемся, что делает Stable Video Diffusion.
Stability готов к захвату рынка, несмотря на сомнения

Компания Stability AI, известная генератором преобразования текста в изображения Stable Diffusion, объявила о том, что ее новая базовая модель преобразования изображений в видео - Stable Video Diffusion (SVD) - теперь доступна на платформе для разработчиков и через интерфейс программирования приложений (API), что позволяет сторонним разработчикам внедрять ее в свои приложения, веб-сайты, программное обеспечение и сервисы.

"Это новое дополнение предоставляет программный доступ к самой современной видеомодели, предназначенной для различных секторов... Наша цель в этом выпуске - предоставить разработчикам эффективный способ беспрепятственно интегрировать передовую генерацию видео в свои продукты", - написала компания в блоге.

Хотя этот релиз может помочь предприятиям, желающим создавать видеоролики с использованием искусственного интеллекта, он также может вызвать некоторые опасения, учитывая, что Stability AI уже привлекает внимание за обучение своих моделей на LAION-5B, наборе данных ИИ с открытым исходным кодом, который, как выяснилось, содержит по меньшей мере 1008 примеров материалов о сексуальном насилии над детьми и в результате был снят с продажи на этой неделе.

Тем не менее, для частных лиц и предприятий, желающих встроить генеративное видео в свои приложения, новые плагины SVD API от Stability являются одним из ведущих вариантов по качеству, предлагая "2 секунды видео, состоящего из 25 сгенерированных кадров и 24 кадров интерполяции FILM, в среднем за 41 секунду", согласно сообщению Stability AI на ее странице в LinkedIn. Возможно, этого недостаточно для крупных видеокампаний, но это точно пригодится для создания GIF-роликов со специфическими сообщениями, включая мемы.

Предложение направлено против конкурирующих моделей генерации видео от Runway и Pika Labs, последняя из которых недавно привлекла 55 миллионов долларов от Lightspeed Venture Partners и представила новую веб-платформу для генерации и редактирования видео.

Однако ни одно из этих предложений не сделало свои модели ИИ, генерирующие видео, доступными через API - для их использования необходимо обращаться непосредственно к их соответствующим веб-сайтам и приложениям, что означает, что, по крайней мере, на данный момент внешние разработчики не могут создавать приложения на их основе или с их использованием.

Примечательно, что Stability также планирует запустить веб-интерфейс для своего видеогенератора, хотя пока не сообщается, когда он будет доступен. Компания призывает пользователей присоединиться к списку ожидания, чтобы первыми опробовать интерфейс.

Для начала давайте разберемся, что делает Stable Video Diffusion.

Анонсированная почти месяц назад в предварительном исследовательском режиме, программа Stable Video Diffusion позволяет пользователям создавать видеоролики в формате MP4 с помощью неподвижных изображений, включая JPG и PNG.

Судя по образцам, представленным компанией, модель неплохо справляется с созданием необходимых роликов, но все еще находится на начальной стадии развития, генерируя лишь короткие видеоролики продолжительностью до двух секунд. Это даже меньше, чем четырехсекундные ролики, создаваемые видеомоделями, ориентированными на исследования.

Но, конечно, несколько видеоклипов можно соединить в одно целое, чтобы создать более крупное видео.

Компания Stability, в свою очередь, утверждает, что может помочь в таких отраслях, как реклама, маркетинг, телевидение, кино и игры.

Что еще более интересно, в отличие от моделей, выпущенных в прошлом месяце для зондирования и обратной связи, выпущенная недавно модель может создавать видео в нескольких вариантах компоновки и разрешения, включая 1024×576, 768×768 и 576×1024. Она также включает такие дополнительные возможности, как контроль силы движения и управление, что позволяет разработчикам выбирать между повторяющейся и случайной генерацией.

Stability готов к захвату рынка, несмотря на сомнения

Хотя запуск Stable Video Diffusion дает предприятиям простой способ встроить функции создания видео в свои продукты, он также подчеркивает, что Stability AI готов к захвату рынка, даже если некоторые сомневаются в источнике его обучающих данных.

Совсем недавно Стэнфордская обсерватория интернета обнаружила, что бесплатный набор данных LAION-5B, который использовался для обучения популярных генераторов текста в изображения, включая Stable Diffusion 1.5 (выпущенный компанией Runway и поддерживаемый Stability), содержит по меньшей мере 1008 случаев сексуального насилия над детьми. Издатель, компания LAION, уже удалила набор данных.

Еще ранее в этом году компания была названа в коллективном иске, в котором утверждалось, что компания заплатила LAION за приобретение "копий миллиардов изображений, защищенных авторским правом, без разрешения для создания Stable Diffusion".

В настоящее время API платформы для разработчиков Stability предоставляет доступ ко всем моделям компании, начиная с генератора текста-изображения Stable Diffusion XL и заканчивая новой моделью SVD. Компания также предлагает вступить в сообщество, чтобы помочь клиентам размещать модели локально.

Эта статья является экземпляром Текста-спринтера. Такие тексты отлично продвигают сайты в ТОП органического поиска Яндекс и Google. Здесь я пишу об этом более подробно.