У нас очередной громкий запуск: новая модель генерации видео LTX-Video от ребят из Lightricks.
Посмотреть вложение Без названия (1).mp4
Эта модель — первая в мире на основе DiT-архитектуры (Diffusion Transformer), которая генерирует видео в реальном времени (30 кадров в секунду) с рекордной детализацией — до 1216×704 точек. Она создана специально с упором на гибкость работы и мощные возможности постобработки.
Пробуйте онлайн в LTX Studio
Изучайте детали на GitHub
Читайте научную статью на Arxiv
Интерфейс позволяет не только создавать видео из текста (text-to-video) и изображений (image-to-video), но также делать видео-видео преобразования (video-to-video), расширять существующие видеоролики вперёд и назад, использовать ключевые кадры для точного управления и комбинировать любые из доступных типов условия генерации.
Что технологически интересного внутри?
Новая версия LTX-Video (v0.9.7, модель 13
– это несколько значимых инноваций под капотом:
— Мультискейловый рендеринг
Lightricks разработали уникальный пайплайн, который сперва быстро генерирует базовое видео в низком разрешении, захватывая движение и освещение, а затем использует улучшение деталей и текстур с временным контекстом. В итоге визуально чёткое и качественное видео получается до 30 раз быстрее, чем простая генерация сразу в высоком разрешении.
— STG (Spatial-Temporal Guidance)
Разработки из свежего исследования Hyung et al. внедрены для улучшения стабильности и устранения фликеринга (мерцаний и скачков) видео за счёт оптимизации процесса шумоподавления. Для людей, плотно работающих со Stable Diffusion и другими диффузионными техниками, это подарок — модель лучше понимает физические законы и создаёт реалистичное движение с меньшим количеством ошибок.
— TeaCache: Ускорение вывода в 2 раза
Продвинутая система кеширования промежуточных вычислений от Liu et al. ускоряет генерацию видео примерно в 2 раза практически без потери качества.
Кстати, Lightricks разместили веса и код в открытом доступе на GitHub, так что теперь любой профессионал, исследователь или энтузиаст может спокойно поиграть с моделью у себя локально или встроить в собственный процесс.
Уже сейчас можно использовать LTX-Video внутри профессионального продукта LTX Studio, предназначенного специально студиям и командам, работающим с видеопродакшеном.
Поработав с моделью, отмечу несколько моментов:
Плюсы
— Реальный realtime: модель объективно выдаёт видеокартинку быстрее, чем её можно посмотреть. Впервые генеративное качество доступно в режиме «живой» работы.
— Высокая стабильность видео и минимальное количество наглядных артефактов.
— Быстрое освоение и интуитивные интерфейсы.
Минусы
— При всех усилиях и оптимизациях потребуется мощный GPU (желательно H100, если хотите прямо realtime на максимальных настройках).
— В некоторых особо сложных случаях всё ещё встречаются ошибки движения и физики объектов.
Источник
Посмотреть вложение Без названия (1).mp4
Эта модель — первая в мире на основе DiT-архитектуры (Diffusion Transformer), которая генерирует видео в реальном времени (30 кадров в секунду) с рекордной детализацией — до 1216×704 точек. Она создана специально с упором на гибкость работы и мощные возможности постобработки.
Интерфейс позволяет не только создавать видео из текста (text-to-video) и изображений (image-to-video), но также делать видео-видео преобразования (video-to-video), расширять существующие видеоролики вперёд и назад, использовать ключевые кадры для точного управления и комбинировать любые из доступных типов условия генерации.
Что технологически интересного внутри?
Новая версия LTX-Video (v0.9.7, модель 13
– это несколько значимых инноваций под капотом:— Мультискейловый рендеринг
Lightricks разработали уникальный пайплайн, который сперва быстро генерирует базовое видео в низком разрешении, захватывая движение и освещение, а затем использует улучшение деталей и текстур с временным контекстом. В итоге визуально чёткое и качественное видео получается до 30 раз быстрее, чем простая генерация сразу в высоком разрешении.
— STG (Spatial-Temporal Guidance)
Разработки из свежего исследования Hyung et al. внедрены для улучшения стабильности и устранения фликеринга (мерцаний и скачков) видео за счёт оптимизации процесса шумоподавления. Для людей, плотно работающих со Stable Diffusion и другими диффузионными техниками, это подарок — модель лучше понимает физические законы и создаёт реалистичное движение с меньшим количеством ошибок.
— TeaCache: Ускорение вывода в 2 раза
Продвинутая система кеширования промежуточных вычислений от Liu et al. ускоряет генерацию видео примерно в 2 раза практически без потери качества.
Кстати, Lightricks разместили веса и код в открытом доступе на GitHub, так что теперь любой профессионал, исследователь или энтузиаст может спокойно поиграть с моделью у себя локально или встроить в собственный процесс.
Уже сейчас можно использовать LTX-Video внутри профессионального продукта LTX Studio, предназначенного специально студиям и командам, работающим с видеопродакшеном.
Поработав с моделью, отмечу несколько моментов:
— Реальный realtime: модель объективно выдаёт видеокартинку быстрее, чем её можно посмотреть. Впервые генеративное качество доступно в режиме «живой» работы.
— Высокая стабильность видео и минимальное количество наглядных артефактов.
— Быстрое освоение и интуитивные интерфейсы.
— При всех усилиях и оптимизациях потребуется мощный GPU (желательно H100, если хотите прямо realtime на максимальных настройках).
— В некоторых особо сложных случаях всё ещё встречаются ошибки движения и физики объектов.
Источник









