Flux.1 - умопомрачительный ИИ-генератор изображений с открытыми весами и 12 миллиардами параметров

BOOX · 23/8/24

Выпущена Flux.1, установившая новые стандарты в мире моделей изображений с открытым весом.

Имея 12 миллиардов параметров, она превосходит по качеству изображения и производительности таких гигантов индустрии, как Midjourney V6, OpenAI's Dall-E 3 и SD3 Ultra от Stability AI.

У команды, создавшей Flux.1, интересная история.

Они являются разработчиками технологии Stable Diffusion и изобретателями латентной диффузии. После некоторых внутренних проблем в Stability AI ключевые члены команды ушли и основали новый стартап под названием Black Forest Labs.
Подобный "технологический исход" часто приводит к инновациям. Когда талантливые люди уходят в самостоятельное плавание, они могут свободно реализовывать новые смелые идеи без ограничений со стороны крупных организаций.

Flux.1 - умопомрачительный ИИ-генератор изображений с открытыми весами и 12 миллиардами параметров

Что такое Flux.1?

Flux.1 - это набор моделей преобразования текста в изображение, которые определяют новый уровень (SOTA) в детализации изображения, соблюдении промптов, разнообразии стилей и сложности сцен для преобразования текста в изображение.

Он поставляется в трех вариантах:

Flux.1 Pro. Это самая современная модель для генерации изображений, обеспечивающая первоклассное выполнение промптов, визуальное качество, детализацию изображений и разнообразие результатов.
Flux.1 Dev. Это модель с открытым весом, предназначенная для некоммерческого использования. Она создана на основе Flux.1 Pro и обеспечивает аналогичное качество и соблюдение промптов, при этом являясь более эффективной, чем обычная модель того же размера.
Flux.1 Schnell. Это самая быстрая модель, предназначенная для локальной разработки и личного использования. Она находится в открытом доступе под лицензией Apache 2.0.

Все публичные модели Flux.1 используют смесь мультимодальных и параллельных блоков трансформации диффузии и имеют 12 миллиардов параметров. Эти модели лучше предыдущих диффузионных моделей, поскольку в них используется согласование потоков - простой и понятный метод обучения генеративных моделей, включающих диффузию.

Кроме того, модели работают лучше и эффективнее используют аппаратное обеспечение благодаря использованию поворотных позиционных вкраплений и параллельных слоев внимания.

Лучше, чем Midjourney?

По мнению исследователей, Flux.1 Pro и Flux.1 Dev превосходят такие популярные модели, как Midjourney v6.0, Dall-E3 и Stable Diffusion 3 Ultra, в каждом из следующих аспектов:

Визуальное качество
Согласованность промпта
Вариативность размеров и пропорций
Типографика
Разнообразие вывода

Но так ли это на самом деле? Давайте попробуем разобраться в этом на примере:

Промпт: old man with glasses portrait, photo, 50mm, f1.4, natural light, Pathéchrome

Flux.1

Midjourney V6.1

Midjourney v6.0

Как вы думаете, какое из изображений выглядит лучше?

Все варианты модели Flux.1 поддерживают различные соотношения сторон и разрешения от 0,1 до 2,0 мегапикселей, как показано в следующем примере.

Примеры изображений

Ознакомьтесь с некоторыми из потрясающих примеров изображений, созданных с помощью Flux.1 Pro. Начнем с изображений людей, где основное внимание уделяется мелким деталям, таким как волосы, морщины, пальцы и конечности.

На левом изображении качество очень похоже на Midjourney. Уровень детализации человеческих черт, таких как волосы, морщины и пальцы, просто поразителен.

Промпт: A robot holding chalk looking at a blackboard that reads the following poem:”ln pixels’ dance, AI’s craft will rise, Transforming visions through machine eyes, From dreams to screens, new worlds unfurled, AI’s brush reshapes our visual world.”

Рендеринг текста - одна из самых сложных областей в генерации ИИ-изображений. Даже последняя версия Midjourney v6.1 все еще не справляется с моими начальными тестами. Flux.1, похоже, действительно хорош, даже с длинными текстами.

Промпт: beautiful anime artwork, a cute anime catgirl that looks depressed holding a piece of paper with a smile drawn on it over her mouth, she is about to cry

Это выглядит очень многообещающе. Мягкие тона и сияющие блики придают этому изображению профессиональный вид, который может сравниться с нарисованными вручную работами.

Фотореализм нового уровня

Некоторые пользователи, получившие доступ к Flux, быстро обнаружили, насколько пугающе реалистичными получаются изображения. Вот некоторые из самых реалистичных селфи-портретов, которыми поделились пользователи в X.

Могу с уверенностью сказать, что это одни из самых реалистичных портретов, созданных ИИ, которые я видел.

Как получить доступ к Flux.1

Для тех, кто хочет попробовать Flux.1, есть несколько бесплатных вариантов:

Вот пример генерации с помощью Replicate.

The world’s largest black forest cake, the size of a building, surrounded by trees of the black forest

Вот еще одна демонстрация Flux в Fal:

Extreme close-up of a single tiger eye, direct frontal view. Detailed iris and pupil. Sharp focus on eye texture and color. Natural lighting to capture authentic eye shine and depth. The word “FLUX” is painted over it in big, white brush strokes with visible texture.

И наконец, вот пример скриншота Flux в HuggingFace:

An image of an astronaut riding a horse in space

Доступ через API

Доступ к Flux.1 Pro через API можно получить здесь. В настоящее время он находится в режиме превью; действуют некоторые ограничения.

Аккаунты активируются только для избранных партнеров.
API не является стабильным и может быть изменен.

Вот пример кода на языке Python:

import osimport requestsrequest = requests.post( '

Для просмотра ссылки необходимо нажать Вход или Регистрация

', headers={ 'accept': 'application/json', 'x-key': os.environ.get("BFL_API_KEY"), 'Content-Type': 'application/json', }, json={ 'prompt': 'A cat on its back legs running like a human is holding a big silver fish with its arms. The cat is running away from the shop owner and has a panicked look on his face. The scene is situated in a crowded market.', 'width': 1024, 'height': 1024, },).json()print(request)request_id = request["id"]

Обратите внимание, что отправка запросов к /v1/image ограничена 12 активными заданиями. Если вы превысите этот лимит, будет возвращен код состояния 429, и вам придется подождать, пока не завершится одна из предыдущих задач.
Ознакомиться с полным процессом использования API можно здесь.

Коммерческое использование и лицензирование

Некоторые из вас могут задаться вопросом, а могу ли я продавать или распространять изображения в коммерческих целях? Ответ - да или нет, в зависимости от модели, которую вы используете.

Flux.1 Pro. Коммерческое использование Flux.1 Pro поддерживается, но доступ к этой модели в настоящее время ограничен партнерами через такие платформы, как Replicate и Fal.ai.
Flux.1 Dev. Использование изображений ограничено некоммерческими целями, то есть вы не можете продавать или распространять изображения, созданные с помощью этой модели, для получения коммерческой выгоды.
Flux.1 Schnell. Модель находится в открытом доступе под лицензией Apache 2.0, что обеспечивает большую гибкость в использовании. Это означает, что вы можете использовать Flux.1 Schnell как в личных, так и в коммерческих целях, если вы соблюдаете условия лицензии Apache 2.0.

В целом, если вы хотите использовать модели Flux.1 в коммерческих целях, вам лучше всего подойдут Flux.1 Pro и Flux.1 Schnell. Flux.1 Pro обеспечивает высочайшее качество и доступна благодаря особым партнерским отношениям, а Flux.1 Schnell предлагает более доступное решение на основе лицензии с открытым исходным кодом.

Несмотря на то, что открытые модели Flux очень интересны, необходимо учитывать практическое ограничение. Запуск этих моделей локально вместе с большой языковой моделью (LLM) требует значительной вычислительной мощности - как правило, A100 GPU или выше. С 12 миллиардами параметров (24 ГБ на диске) и 9 ГБ для текстового кодировщика Flux.1 находится за пределами возможностей большинства устройств потребительского класса.

Модель с открытым весом, Schnell, уже очень хороша. Я не сомневаюсь, что сообщество будет работать над поиском новых методов настройки, обучения и расширения версии Apache 2.0. Я с нетерпением жду, когда появятся удивительные, точно настроенные модели, которые будут генерировать умопомрачительные изображения.

Источник

Собака · 5/9/24

Всем привет!

Flux.1 D — это мощная модель для генерации изображений по текстовому описанию.

Разработчики Flux — бывшие создатели Stable Diffusion и Stable Diffusion XL — Робин Ромбах и Андреас Блаттман. Оба выступали за идею, но компания преследовала только коммерческие интересы. Как итог — произошел конфликт и ключевые фигуры покинули Stability AI. Недавно ими была создана новая компания The Black Forest Team, которая и представила нам Flux.

Flux основана на 12-миллиардном трансформере и использует инновационный подход, так что достигать высокой производительности и качества изображения возможно даже при запуске на бытовых видеокартах.

Модель очень хорошо следует промпту и распознает текст.

В статье мы посмотрим, как запустить Flux онлайн и локально, а так же на ее возможности.

❯ Версии модели Flux

Модель FLUX представлена в трёх версиях:

FLUX.1 DEV: эта версия является открытой и предназначена для некоммерческого использования. Она была создана на основе Pro-версии и обладает схожим качеством и способностью следовать подсказкам, но работает более эффективно.
FLUX.1 SCHNELL: ориентирована на скорость, позволяя генерировать изображения за 1-4 шага. Это самая быстрая версия модели, предназначенная для локальной разработки и личного использования, в которой так же предусмотрена интеграция в ComfyUI.
FLUX.1 PRO: это самая продвинутая версия модели, обеспечивающая высококачественную генерацию изображений. Она отличается отличным следованием подсказкам, высоким визуальным качеством, детализацией изображений и разнообразием выходных данных.

❯ Как опробовать Flux онлайн и бесплатно

Демо на Hugging Face.

Flux на Hugging Face
Интерфейс довольно простой, особенно если вы ранее сталкивались с генеративными нейросетями:

Интерфейс Flux на Hugging Face
Окно Enter your prompt — добавьте в это окно текстовый запрос для будущего изображения.

Seed — начальное значение шума. Для каждого изображения используется свой seed — нажмите Randomize seed, если вы не хотите зафиксировать текущий результат.

Width и Height — размеры изображения от 256 до 2048 пикселей (кратные 64). Чем больше разрешение, тем больше изображение, но тем больше времени занимает генерация.

Guidance Scale — определяет, насколько строго модель следует текстовому запросу. Чем выше — тем лучше соответствие, но меньше творческого размаха у нейросети. Рекомендую использовать значение по умолчанию.

Number of inference steps — количество шагов, за которые модель генерирует изображение. Рекомендую использовать значение по умолчанию.

Сервис ArtGeneration.me.

Модель Flux на ArtGeneration.me
Вы так же можете опробовать FLUX на ArtGeneration.me бесплатно. При регистрации дают 3 бесплатных дня PRO.

У сервиса куча преимуществ перед демо на Hugging Face:

возможность Upscale (увеличение разрешения);
возможность Outpaint (расширение изображения);
Inpaint (к сожалению, пока только на моделях XL).

И если вы начинающий, на ArtGeneration невозможно промахнуться с разрешением.

Тут интерфейс более понятный, так как он на русском языке.

Здесь есть куча популярных XL-моделей на любой вкус помимо Flux, поэтому вводим название в поиск и нажимаем на превью модели.

Выбор модели на ArtGeneration.me

Параметры генерации на ArtGeneration.me

Окно промпта находится под изображением.

Избегать — негативный запрос, то, чего не хотим видеть на изображении.

Проработка — то же, что и количество шагов.

Соответствие запросу — то же, что и guidance scale.

Шум — seed.

Сэмплеры — это различные математические функции, по которым генерируется шум для преобразования его в изображение. Советую использовать значение по умолчанию.

Количество изображений — еще один плюс в копилку сервиса — за раз можно сгенерировать до 4-х картинок.

Функции апскейла/расширения находятся на верхней панели.

❯ Как установить Flux локально к себе на компьютер

Flux Dev для Forge

Flux в Forge
Сперва качаем Forge с установкой в один клик.

Далее скачиваем эту модель, если у вас видеокарта NVIDIA 30-й или 40-й серии, или эту модель для карт 10-й и 20-й серий.

Если у вас уже установлен Forge, то просто скачайте и добавьте Flux к остальным моделям в папку models. Не забудьте перед этим запустить файл update.bat и обновить интерфейс.

Портативная версия

Портативная версия Flux
.Если вы просто хотите скачать Flux к себе на компьютер с установкой в один клик — то специально для вас мы сделали портативную версию с установкой в один клик. Это квантованная версия модели.

А теперь посмотрим на возможности Flux и красивые примеры с промптами.

Примеры и возможности Flux

Начнем с аниме, попросим Flux изобразить милую девушку в кимоно с драконом:

masterpiece, 1girl, long white hair, kimono, a dragon, red eyes, foggy, onsen.

Прекрасный результат! Мне очень нравится.

Сгенерируем красивый и детальный глаз в оранжево-пурпурных оттенках:

Hyper-detailed close-up purpe eye with the iris and pupil transformed into an abstract galaxy with a high-contrast purple and orange theme. Surrounding the eye, stylized makeup in bold black and bright orange mirrors the lightning with sharp, the atmosphere is dark and moody, charged with a sense of power and mystery.

Девушка с синими волосами и таинственной коробкой:

extremely beautiful, highly detailed, dark background, young lady 19 years old, long blue hair, freckles, blue eyes, black silk robe, racks, paper, makeup, named Alexis, smiling, easygoing, affectionate, enthusiastic, holding a box, light shines out of the box, light particles, depth of field, Highly Detailed, intricately detailed gothic art trending translucent, illumination, surrealistic, abstract, dark night.

Попробуем эту шедевральную модель с текстом, хотя, вы наверняка уже поняли, что и тут она справляется на отлично:

Hyper details and shaprness, night cyberpunk empty street, rainy weather, the puddles reflect the neon "WONDER" sign.

Lana Del Ray Holding a "FLUXIK" neon sign, night street, cyberpunk.

Flux.1 — это выдающаяся модель для генерации изображений, которая сочетает в себе мощь современных технологий с доступностью для обычных пользователей.
Советую вам опробовать ее, если вы еще этого не сделали!

Источник

Поиск

Flux.1 - умопомрачительный ИИ-генератор изображений с открытыми весами и 12 миллиардами параметров

BOOX

Стаж на ФС с 2012 года

Что такое Flux.1?

Лучше, чем Midjourney?

Примеры изображений

Фотореализм нового уровня

Как получить доступ к Flux.1

Доступ через API

Коммерческое использование и лицензирование

Собака

Пресс-служба

❯ Версии модели Flux

❯ Как опробовать Flux онлайн и бесплатно

❯ Как установить Flux локально к себе на компьютер

Flux Dev для Forge

Портативная версия

Примеры и возможности Flux

Похожие темы

Flux.1 - умопомрачительный ИИ-генератор изображений с открытыми весами и 12 миллиардами параметров

BOOX

Стаж на ФС с 2012 года

Что такое Flux.1?​

Лучше, чем Midjourney?​

Примеры изображений​

Фотореализм нового уровня​

Как получить доступ к Flux.1​

Доступ через API​

Коммерческое использование и лицензирование​

Собака

Пресс-служба

❯ Версии модели Flux​

❯ Как опробовать Flux онлайн и бесплатно​

❯ Как установить Flux локально к себе на компьютер​

Flux Dev для Forge​

Портативная версия​

Примеры и возможности Flux​

Похожие темы

Что такое Flux.1?

Лучше, чем Midjourney?

Примеры изображений

Фотореализм нового уровня

Как получить доступ к Flux.1

Доступ через API

Коммерческое использование и лицензирование

❯ Версии модели Flux

❯ Как опробовать Flux онлайн и бесплатно

❯ Как установить Flux локально к себе на компьютер

Flux Dev для Forge

Портативная версия

Примеры и возможности Flux