У нас очередной громкий запуск: новая модель генерации видео LTX-Video от ребят из Lightricks.
Посмотреть вложение Без названия (1).mp4
Эта модель — первая в мире на основе DiT-архитектуры (Diffusion Transformer), которая генерирует видео в реальном времени (30 кадров в секунду) с рекордной детализацией — до 1216×704 точек. Она создана специально с упором на гибкость работы и мощные возможности постобработки.
Интерфейс позволяет не только создавать видео из текста (text-to-video) и изображений (image-to-video), но также делать видео-видео преобразования (video-to-video), расширять существующие видеоролики вперёд и назад, использовать ключевые кадры для точного управления и комбинировать любые из доступных типов условия генерации.
Что технологически интересного внутри?
Новая версия LTX-Video (v0.9.7, модель 13
– это несколько значимых инноваций под капотом:
— Мультискейловый рендеринг
Lightricks разработали уникальный пайплайн, который сперва быстро генерирует базовое видео в низком разрешении, захватывая движение и освещение, а затем использует улучшение деталей и текстур с временным контекстом. В итоге визуально чёткое и качественное видео получается до 30 раз быстрее, чем простая генерация сразу в высоком разрешении.
— STG (Spatial-Temporal Guidance)
Разработки из свежего исследования Hyung et al. внедрены для улучшения стабильности и устранения фликеринга (мерцаний и скачков) видео за счёт оптимизации процесса шумоподавления. Для людей, плотно работающих со Stable Diffusion и другими диффузионными техниками, это подарок — модель лучше понимает физические законы и создаёт реалистичное движение с меньшим количеством ошибок.
— TeaCache: Ускорение вывода в 2 раза
Продвинутая система кеширования промежуточных вычислений от Liu et al. ускоряет генерацию видео примерно в 2 раза практически без потери качества.
Кстати, Lightricks разместили веса и код в открытом доступе на
Уже сейчас можно использовать LTX-Video внутри профессионального продукта
Поработав с моделью, отмечу несколько моментов:
Плюсы
— Реальный realtime: модель объективно выдаёт видеокартинку быстрее, чем её можно посмотреть. Впервые генеративное качество доступно в режиме «живой» работы.
— Высокая стабильность видео и минимальное количество наглядных артефактов.
— Быстрое освоение и интуитивные интерфейсы.
Минусы
— При всех усилиях и оптимизациях потребуется мощный GPU (желательно H100, если хотите прямо realtime на максимальных настройках).
— В некоторых особо сложных случаях всё ещё встречаются ошибки движения и физики объектов.
Посмотреть вложение Без названия (1).mp4
Эта модель — первая в мире на основе DiT-архитектуры (Diffusion Transformer), которая генерирует видео в реальном времени (30 кадров в секунду) с рекордной детализацией — до 1216×704 точек. Она создана специально с упором на гибкость работы и мощные возможности постобработки.

Для просмотра ссылки необходимо нажать
Вход или Регистрация

Для просмотра ссылки необходимо нажать
Вход или Регистрация

Для просмотра ссылки необходимо нажать
Вход или Регистрация
Интерфейс позволяет не только создавать видео из текста (text-to-video) и изображений (image-to-video), но также делать видео-видео преобразования (video-to-video), расширять существующие видеоролики вперёд и назад, использовать ключевые кадры для точного управления и комбинировать любые из доступных типов условия генерации.
Что технологически интересного внутри?
Новая версия LTX-Video (v0.9.7, модель 13

— Мультискейловый рендеринг
Lightricks разработали уникальный пайплайн, который сперва быстро генерирует базовое видео в низком разрешении, захватывая движение и освещение, а затем использует улучшение деталей и текстур с временным контекстом. В итоге визуально чёткое и качественное видео получается до 30 раз быстрее, чем простая генерация сразу в высоком разрешении.
— STG (Spatial-Temporal Guidance)
Разработки из свежего исследования Hyung et al. внедрены для улучшения стабильности и устранения фликеринга (мерцаний и скачков) видео за счёт оптимизации процесса шумоподавления. Для людей, плотно работающих со Stable Diffusion и другими диффузионными техниками, это подарок — модель лучше понимает физические законы и создаёт реалистичное движение с меньшим количеством ошибок.
— TeaCache: Ускорение вывода в 2 раза
Продвинутая система кеширования промежуточных вычислений от Liu et al. ускоряет генерацию видео примерно в 2 раза практически без потери качества.
Кстати, Lightricks разместили веса и код в открытом доступе на
Для просмотра ссылки необходимо нажать
Вход или Регистрация
, так что теперь любой профессионал, исследователь или энтузиаст может спокойно поиграть с моделью у себя локально или встроить в собственный процесс.Уже сейчас можно использовать LTX-Video внутри профессионального продукта
Для просмотра ссылки необходимо нажать
Вход или Регистрация
, предназначенного специально студиям и командам, работающим с видеопродакшеном.Поработав с моделью, отмечу несколько моментов:

— Реальный realtime: модель объективно выдаёт видеокартинку быстрее, чем её можно посмотреть. Впервые генеративное качество доступно в режиме «живой» работы.
— Высокая стабильность видео и минимальное количество наглядных артефактов.
— Быстрое освоение и интуитивные интерфейсы.

— При всех усилиях и оптимизациях потребуется мощный GPU (желательно H100, если хотите прямо realtime на максимальных настройках).
— В некоторых особо сложных случаях всё ещё встречаются ошибки движения и физики объектов.
Для просмотра ссылки необходимо нажать
Вход или Регистрация