Как TensorRT ускоряет ИИ на ПК и рабочих станциях RTX?
Обновлено 20 января 2025 - 2 месяца назад. Blogs.nvidia.com.
По мере развития генеративного ИИ и его широкого распространения в различных отраслях промышленности возрастает важность запуска приложений генеративного ИИ на локальных ПК и рабочих станциях. Локальный вывод данных позволяет потребителям снизить задержки, устранить зависимость от сети и получить больший контроль над данными.
Графические процессоры NVIDIA GeForce и NVIDIA RTX оснащены Tensor Cores - специальными аппаратными ускорителями ИИ, которые обеспечивают мощь для локального генеративного ИИ.
Stable Video Diffusion теперь оптимизирован для комплекта разработки ПО NVIDIA TensorRT, который открывает возможности высокопроизводительного генеративного ИИ на более чем 100 миллионах ПК и рабочих станций с Windows на базе GPU RTX.
Теперь расширение TensorRT для популярного веб-интерфейса Stable Diffusion от Automatic1111 добавляет поддержку ControlNets - инструментов, которые дают пользователям больше возможностей для уточнения генеративных результатов путем добавления других изображений в качестве руководства.
Ускорение TensorRT можно испытать в новом бенчмарке UL Procyon AI Image Generation, который, как показали внутренние тесты, точно повторяет реальную производительность. На графическом процессоре GeForce RTX 4080 SUPER он показал ускорение на 50 % по сравнению с самой быстрой реализацией без TensorRT.
Более эффективный и точный искусственный интеллект
TensorRT позволяет разработчикам получить доступ к аппаратному обеспечению, обеспечивающему полностью оптимизированную работу ИИ. Производительность ИИ обычно удваивается по сравнению с запуском приложений на других фреймворках.
Он также ускоряет наиболее популярные модели генеративного ИИ, такие как Stable Diffusion и SDXL. Stable Video Diffusion, генеративная модель ИИ Stability AI для работы с изображениями и видео, ускоряется на 40 % с помощью TensorRT.
Оптимизированную модель Stable Video Diffusion 1.1 Image-to-Video можно скачать на сайте Hugging Face.
Кроме того, расширение TensorRT для Stable Diffusion WebUI увеличивает производительность до 2 раз, что значительно упрощает рабочие процессы Stable Diffusion.
В последнем обновлении расширения оптимизация TensorRT распространяется на ControlNets - набор моделей искусственного интеллекта, которые помогают направлять вывод диффузионной модели, добавляя дополнительные условия. Благодаря TensorRT ControlNets работают на 40 % быстрее.
Пользователи могут направлять аспекты выходного сигнала в соответствии с входным изображением, что дает им больше возможностей для контроля над конечным изображением. Кроме того, можно использовать несколько сетей ControlNet для еще большего контроля. Сеть управления может представлять собой карту глубины, карту краев, карту нормалей или модель обнаружения ключевых точек, а также многое другое.
Другие популярные приложения, ускоренные TensorRT
Blackmagic Design внедрила ускорение NVIDIA TensorRT в обновлении 18.6 DaVinci Resolve. Инструменты искусственного интеллекта, такие как Magic Mask, Speed Warp и Super Scale, работают более чем на 50% быстрее и до 2,3x быстрее на графических процессорах RTX по сравнению с Mac.
Кроме того, благодаря интеграции TensorRT компания Topaz Labs получила прирост производительности до 60 % в своих приложениях Photo AI и Video AI - таких как уменьшение и увеличение резкости фотографий, суперразрешение фотографий, замедленная съемка видео, суперразрешение видео, стабилизация видео и другие - все они работают на RTX.
Сочетание тензорных ядер с программным обеспечением TensorRT обеспечивает непревзойденную производительность генеративного ИИ на локальных ПК и рабочих станциях. Локальная работа дает несколько преимуществ:
- Производительность : пользователи ощущают меньшую задержку, поскольку при локальной работе всей модели задержка не зависит от качества сети. Это может быть важно для использования в реальном времени, например, в играх или видеоконференциях. NVIDIA RTX предлагает самые быстрые ускорители ИИ, масштабируясь до более чем 1 300 триллионов операций ИИ в секунду, или TOPS.
- Стоимость : Пользователям не нужно платить за облачные сервисы, интерфейсы программирования облачных приложений или инфраструктурные расходы для вывода больших языковых моделей.
- Всегда на связи : пользователи могут получить доступ к возможностям LLM в любом месте, не завися от высокой пропускной способности сети.
- Конфиденциальность данных : частные и служебные данные всегда могут оставаться на устройстве пользователя.
Оптимизировано для LLM
То, что TensorRT привнес в глубокое обучение, NVIDIA TensorRT-LLM привносит в новейшие LLM.
TensorRT-LLM, библиотека с открытым исходным кодом, ускоряющая и оптимизирующая LLM-выводы, включает в себя поддержку популярных моделей сообщества, включая Phi-2, Llama2, Gemma, Mistral и Code Llama. Любой - от разработчиков и создателей до сотрудников предприятий и обычных пользователей - может экспериментировать с моделями, оптимизированными для TensorRT-LLM, в моделях NVIDIA AI Foundation. Кроме того, с помощью демонстрации NVIDIA ChatRTX пользователи могут увидеть производительность различных моделей, работающих локально на ПК с Windows. ChatRTX построен на TensorRT-LLM для оптимизации производительности на RTX GPU.
NVIDIA сотрудничает с сообществом open-source для разработки собственных коннекторов TensorRT-LLM к популярным фреймворкам, включая LlamaIndex и LangChain.
Благодаря этим инновациям разработчики могут легко использовать TensorRT-LLM в своих приложениях и наслаждаться лучшей производительностью LLM с RTX.
Эта статья является экземпляром Текста-спринтера. Такие тексты отлично продвигают сайты в ТОП органического поиска Яндекс и Google. Здесь я пишу об этом более подробно.

Искренне Ваш,
Nikita Interactive
Это реальная история!
Раздел с Текстами-спринтерами привлек 18 090 пользователей за 9 месяцев.
На новом сайте. Без ссылок.
Измеримые результаты и устойчивый успех.