Выпущена Flux.1, установившая новые стандарты в мире моделей изображений с открытым весом.
Имея 12 миллиардов параметров, она превосходит по качеству изображения и производительности таких гигантов индустрии, как Midjourney V6, OpenAI's Dall-E 3 и SD3 Ultra от Stability AI.
У команды, создавшей Flux.1, интересная история.
Они являются разработчиками технологии Stable Diffusion и изобретателями латентной диффузии. После некоторых внутренних проблем в Stability AI ключевые члены команды ушли и основали новый стартап под названием Black Forest Labs.
Подобный "технологический исход" часто приводит к инновациям. Когда талантливые люди уходят в самостоятельное плавание, они могут свободно реализовывать новые смелые идеи без ограничений со стороны крупных организаций.
Он поставляется в трех вариантах:
Все публичные модели Flux.1 используют смесь мультимодальных и параллельных блоков трансформации диффузии и имеют 12 миллиардов параметров. Эти модели лучше предыдущих диффузионных моделей, поскольку в них используется согласование потоков - простой и понятный метод обучения генеративных моделей, включающих диффузию.
Кроме того, модели работают лучше и эффективнее используют аппаратное обеспечение благодаря использованию поворотных позиционных вкраплений и параллельных слоев внимания.
Flux.1
Midjourney V6.1
Midjourney v6.0
Как вы думаете, какое из изображений выглядит лучше?
Все варианты модели Flux.1 поддерживают различные соотношения сторон и разрешения от 0,1 до 2,0 мегапикселей, как показано в следующем примере.
На левом изображении качество очень похоже на Midjourney. Уровень детализации человеческих черт, таких как волосы, морщины и пальцы, просто поразителен.
Рендеринг текста - одна из самых сложных областей в генерации ИИ-изображений. Даже последняя версия Midjourney v6.1 все еще не справляется с моими начальными тестами. Flux.1, похоже, действительно хорош, даже с длинными текстами.
Это выглядит очень многообещающе. Мягкие тона и сияющие блики придают этому изображению профессиональный вид, который может сравниться с нарисованными вручную работами.
Могу с уверенностью сказать, что это одни из самых реалистичных портретов, созданных ИИ, которые я видел.
Вот пример генерации с помощью Replicate.
Вот еще одна демонстрация Flux в Fal:
И наконец, вот пример скриншота Flux в HuggingFace:
import osimport requestsrequest = requests.post( '
Обратите внимание, что отправка запросов к /v1/image ограничена 12 активными заданиями. Если вы превысите этот лимит, будет возвращен код состояния 429, и вам придется подождать, пока не завершится одна из предыдущих задач.
Ознакомиться с полным процессом использования API можно здесь.
Несмотря на то, что открытые модели Flux очень интересны, необходимо учитывать практическое ограничение. Запуск этих моделей локально вместе с большой языковой моделью (LLM) требует значительной вычислительной мощности - как правило, A100 GPU или выше. С 12 миллиардами параметров (24 ГБ на диске) и 9 ГБ для текстового кодировщика Flux.1 находится за пределами возможностей большинства устройств потребительского класса.
Модель с открытым весом, Schnell, уже очень хороша. Я не сомневаюсь, что сообщество будет работать над поиском новых методов настройки, обучения и расширения версии Apache 2.0. Я с нетерпением жду, когда появятся удивительные, точно настроенные модели, которые будут генерировать умопомрачительные изображения.
Источник
Имея 12 миллиардов параметров, она превосходит по качеству изображения и производительности таких гигантов индустрии, как Midjourney V6, OpenAI's Dall-E 3 и SD3 Ultra от Stability AI.
У команды, создавшей Flux.1, интересная история.
Они являются разработчиками технологии Stable Diffusion и изобретателями латентной диффузии. После некоторых внутренних проблем в Stability AI ключевые члены команды ушли и основали новый стартап под названием Black Forest Labs.
Подобный "технологический исход" часто приводит к инновациям. Когда талантливые люди уходят в самостоятельное плавание, они могут свободно реализовывать новые смелые идеи без ограничений со стороны крупных организаций.
Что такое Flux.1?
Flux.1 - это набор моделей преобразования текста в изображение, которые определяют новый уровень (SOTA) в детализации изображения, соблюдении промптов, разнообразии стилей и сложности сцен для преобразования текста в изображение.Он поставляется в трех вариантах:
- Flux.1 Pro. Это самая современная модель для генерации изображений, обеспечивающая первоклассное выполнение промптов, визуальное качество, детализацию изображений и разнообразие результатов.
- Flux.1 Dev. Это модель с открытым весом, предназначенная для некоммерческого использования. Она создана на основе Flux.1 Pro и обеспечивает аналогичное качество и соблюдение промптов, при этом являясь более эффективной, чем обычная модель того же размера.
- Flux.1 Schnell. Это самая быстрая модель, предназначенная для локальной разработки и личного использования. Она находится в открытом доступе под лицензией Apache 2.0.
Все публичные модели Flux.1 используют смесь мультимодальных и параллельных блоков трансформации диффузии и имеют 12 миллиардов параметров. Эти модели лучше предыдущих диффузионных моделей, поскольку в них используется согласование потоков - простой и понятный метод обучения генеративных моделей, включающих диффузию.
Кроме того, модели работают лучше и эффективнее используют аппаратное обеспечение благодаря использованию поворотных позиционных вкраплений и параллельных слоев внимания.
Лучше, чем Midjourney?
По мнению исследователей, Flux.1 Pro и Flux.1 Dev превосходят такие популярные модели, как Midjourney v6.0, Dall-E3 и Stable Diffusion 3 Ultra, в каждом из следующих аспектов:- Визуальное качество
- Согласованность промпта
- Вариативность размеров и пропорций
- Типографика
- Разнообразие вывода
Промпт: old man with glasses portrait, photo, 50mm, f1.4, natural light, Pathéchrome
Flux.1
Midjourney V6.1
Midjourney v6.0
Как вы думаете, какое из изображений выглядит лучше?
Все варианты модели Flux.1 поддерживают различные соотношения сторон и разрешения от 0,1 до 2,0 мегапикселей, как показано в следующем примере.
Примеры изображений
Ознакомьтесь с некоторыми из потрясающих примеров изображений, созданных с помощью Flux.1 Pro. Начнем с изображений людей, где основное внимание уделяется мелким деталям, таким как волосы, морщины, пальцы и конечности.На левом изображении качество очень похоже на Midjourney. Уровень детализации человеческих черт, таких как волосы, морщины и пальцы, просто поразителен.
Промпт: A robot holding chalk looking at a blackboard that reads the following poem:”ln pixels’ dance, AI’s craft will rise, Transforming visions through machine eyes, From dreams to screens, new worlds unfurled, AI’s brush reshapes our visual world.”
Рендеринг текста - одна из самых сложных областей в генерации ИИ-изображений. Даже последняя версия Midjourney v6.1 все еще не справляется с моими начальными тестами. Flux.1, похоже, действительно хорош, даже с длинными текстами.
Промпт: beautiful anime artwork, a cute anime catgirl that looks depressed holding a piece of paper with a smile drawn on it over her mouth, she is about to cry
Это выглядит очень многообещающе. Мягкие тона и сияющие блики придают этому изображению профессиональный вид, который может сравниться с нарисованными вручную работами.
Фотореализм нового уровня
Некоторые пользователи, получившие доступ к Flux, быстро обнаружили, насколько пугающе реалистичными получаются изображения. Вот некоторые из самых реалистичных селфи-портретов, которыми поделились пользователи в X.Могу с уверенностью сказать, что это одни из самых реалистичных портретов, созданных ИИ, которые я видел.
Как получить доступ к Flux.1
Для тех, кто хочет попробовать Flux.1, есть несколько бесплатных вариантов:Вот пример генерации с помощью Replicate.
The world’s largest black forest cake, the size of a building, surrounded by trees of the black forest
Вот еще одна демонстрация Flux в Fal:
Extreme close-up of a single tiger eye, direct frontal view. Detailed iris and pupil. Sharp focus on eye texture and color. Natural lighting to capture authentic eye shine and depth. The word “FLUX” is painted over it in big, white brush strokes with visible texture.
И наконец, вот пример скриншота Flux в HuggingFace:
An image of an astronaut riding a horse in space
Доступ через API
Доступ к Flux.1 Pro через API можно получить здесь. В настоящее время он находится в режиме превью; действуют некоторые ограничения.- Аккаунты активируются только для избранных партнеров.
- API не является стабильным и может быть изменен.
import osimport requestsrequest = requests.post( '
Для просмотра ссылки необходимо нажать
Вход или Регистрация
', headers={ 'accept': 'application/json', 'x-key': os.environ.get("BFL_API_KEY"), 'Content-Type': 'application/json', }, json={ 'prompt': 'A cat on its back legs running like a human is holding a big silver fish with its arms. The cat is running away from the shop owner and has a panicked look on his face. The scene is situated in a crowded market.', 'width': 1024, 'height': 1024, },).json()print(request)request_id = request["id"]Обратите внимание, что отправка запросов к /v1/image ограничена 12 активными заданиями. Если вы превысите этот лимит, будет возвращен код состояния 429, и вам придется подождать, пока не завершится одна из предыдущих задач.
Ознакомиться с полным процессом использования API можно здесь.
Коммерческое использование и лицензирование
Некоторые из вас могут задаться вопросом, а могу ли я продавать или распространять изображения в коммерческих целях? Ответ - да или нет, в зависимости от модели, которую вы используете.- Flux.1 Pro. Коммерческое использование Flux.1 Pro поддерживается, но доступ к этой модели в настоящее время ограничен партнерами через такие платформы, как Replicate и Fal.ai.
- Flux.1 Dev. Использование изображений ограничено некоммерческими целями, то есть вы не можете продавать или распространять изображения, созданные с помощью этой модели, для получения коммерческой выгоды.
- Flux.1 Schnell. Модель находится в открытом доступе под лицензией Apache 2.0, что обеспечивает большую гибкость в использовании. Это означает, что вы можете использовать Flux.1 Schnell как в личных, так и в коммерческих целях, если вы соблюдаете условия лицензии Apache 2.0.
Несмотря на то, что открытые модели Flux очень интересны, необходимо учитывать практическое ограничение. Запуск этих моделей локально вместе с большой языковой моделью (LLM) требует значительной вычислительной мощности - как правило, A100 GPU или выше. С 12 миллиардами параметров (24 ГБ на диске) и 9 ГБ для текстового кодировщика Flux.1 находится за пределами возможностей большинства устройств потребительского класса.
Модель с открытым весом, Schnell, уже очень хороша. Я не сомневаюсь, что сообщество будет работать над поиском новых методов настройки, обучения и расширения версии Apache 2.0. Я с нетерпением жду, когда появятся удивительные, точно настроенные модели, которые будут генерировать умопомрачительные изображения.
Источник









