O ajuste fino do Flux conquistou toda a Internet, com estrangeiros formando uma equipe de heróis da Marvel!

2024-08-19

Novo Relatório de Sabedoria

Editor: Departamento Editorial

[Introdução à Nova Sabedoria]Nasce o rei do mapeamento de IA que está conquistando o mundo do código aberto! Meio mês após seu lançamento, Flux se tornou uma alternativa favorita ao Midjourney. Desenvolvedores de todas as esferas da vida começaram a ajustar o LoRA com suas próprias fotos, permitindo que uma pessoa dominasse vários estilos.

Depois de Midjourney, nunca vi pessoas tão loucas por um aplicativo de imagem de IA.

O surgimento do Flux significa que a geração de imagens de IA entrou em um novo estágio.

O próprio Musk disse que não conseguia mais distinguir o verdadeiro do falso.

Primeiro, uma foto realista de um palestrante do TED conquistou a internet. Mais tarde, Grok 2, que integrava o modelo Flux, rompeu as restrições do guardrail e enlouqueceu entre os internautas.

Recentemente, os desenvolvedores do Flux também começaram a ajustar seus próprios modelos LoRA.

HuggingFace Lianchuang exclamou que o Flux conquistou completamente o mundo da IA de código aberto. Ele nunca viu um modelo com tantos modelos derivados/plataformas online/demonstração ocupando a lista de favoritos ao mesmo tempo.

O desenvolvedor que o ajustou disse: “Flux + LoRA subverterá o mercado generativo de IA. Você pode estar em qualquer lugar, vestindo qualquer coisa, com as roupas que quiser e gerar diferentes versões de si mesmo”.

Por exemplo, transforme-se no Superman.

Pegue a espada retrátil de luz e sombra e transforme-se em um Cavaleiro Jedi. Que a Força esteja com você.

Além disso, fotos de esculturas de gelo, consoles de jogos, orelhas de elfo, desfiles de moda, etc. são apenas palavras.

Deslize para a esquerda ou para a direita para ver

Ajustar seu próprio LoRA agora se tornou um novo brinquedo para muitos desenvolvedores.

Não, toda a rede está inundada por Flux+LoRA.

Uma pessoa pode formar os "Vingadores"

Rowan Cheung, o fundador da Rundown AI, usou suas próprias fotos como dados, usou o Flux para treinar um modelo LoRA e depois vinculou-o ao Runway para fazê-lo se mover.

Conforme mostrado abaixo, é gerada uma imagem semelhante a um palestrante do TED.

Depois de fazer o vídeo, a pessoa da foto realmente ganhou vida e parecia um palestrante. A única desvantagem é que existem apenas 2-3 dedos da mão direita até as costas.

O outro se gerou salvando o mundo como Superman.

Com a animação, finalmente me tornei um herói da Marvel.

Regenere em uma foto vestindo roupas da moda e andando na passarela.

O público de ambos os lados aplaudiu com entusiasmo e foi considerada uma experiência de passarela no palco T.

Além disso, Rowan Cheung também gerou diferentes estilos de si mesmo, que são consistentes com a cena e não têm senso de desobediência.

Deslize para a esquerda ou para a direita para ver

Ele acredita que embora os gráficos gerados por IA ainda não possam substituir filmes/comerciais completos, eles já têm muitos usos importantes, especialmente para criadores de conteúdo.

Por exemplo, estas imagens de IA são utilizadas para produzir pré-visualizações e imagens de acompanhamento de notícias, bem como material suplementar (B-roll) em curtas-metragens.

Depois de ler, a internauta Min Choi disse que poderia formar um “Vingadores”.

O ex-CTO da Intel também aperfeiçoou seu próprio modelo LoRA no A100, que lhe custou US$ 7 (cerca de 50 yuans) em 75 minutos.

Deslize para a esquerda ou para a direita para ver

Existem também desenvolvedores que acabaram de se transformar em filmes de terror.

Deslize para a esquerda ou para a direita para ver

Não consigo dizer a diferença entre IA e realidade

A mais popular é a versão refinada do “surrealismo” – torna-se cada vez mais difícil distinguir a fronteira entre imaginação e realidade.

É uma foto real ou uma pessoa desenhada por IA?

Após o treinamento com LoRA no Flux-Dev, um progresso incrível foi feito em termos de complexidade e realismo da cena.

Qualquer estilo pode ser ajustado

Além disso, vários estilos diferentes de ajuste fino também estão surgindo.

estilo de pixels

Os desenvolvedores usaram o estilo do lendário ZX Spectrum como exemplo para ajustar a geração de imagens semelhantes a pixels LoRA.

Na imagem gerada abaixo, há imagens como Dragon Ball Sun Wukong, Marvel Iron Man, Chuan Jianguo (aparentemente), etc.

Deslize para a esquerda ou para a direita para ver

rabiscos animados

O designer de produto de IA generativa do PS, Davis Brown, ajustou um modelo half_illustration baseado no Flux.

As imagens que ele gera são parcialmente no estilo de fotos reais e parcialmente no estilo de graffiti animado.

Antes de cada desenho, basta adicionar - No estilo TOK no início do prompt.

Em seguida, descreva detalhadamente o efeito desejado e o filme poderá ser produzido imediatamente.

No futuro, sinto que não preciso usar PS, posso apenas usar IA para gerar imagens.

prompt：No estilo de TOK, uma pose de ação dramática de vanguarda editorial de fotos de uma mulher de cabelo azul curto usando óculos escuros redondos e malucos dos anos 70, abaixando os óculos e olhando para frente, em Tóquio com grandes estruturas de mármore e árvores bonsai ao pôr do sol com uma jaqueta ilustrada vibrante cercada por ilustrações de flores, fumaça, chamas, sorvete, brilhos, rock and roll

prompt：No estilo de TOK, uma pose de ação dramática editorial de fotos de uma pessoa com olhos penetrantes, tatuagens no rosto, com chapéu de balde criativo, em pé em Tóquio com grandes estruturas de mármore e árvores roxas brancas em uma quadra de basquete, com uma vibrante jaqueta vintage fofa ilustrada de rua, camisa preta, vulcão ao fundo, cercado por ilustrações de fumaça, chamas e flores, neblina, pontos de exclamação, linhas disparando para fora, personagens minions, borboletas

Existem outras fotos no estilo graffiti.

Deslize para a esquerda ou para a direita para ver

Jiugongge

A plataforma de conjunto de dados de código aberto LAION usa o modelo Flux para treinar um modelo que pode gerar fotos de grade 3x3 de nove quadrados de si mesmo de diferentes ângulos.

A partir de agora, uma selfie será suficiente.

Deslize para a esquerda ou para a direita para ver

idades diferentes

A aparência da vida de uma pessoa pode ser vista através do Flux+LoRA.

Deslize para a esquerda ou para a direita para ver

Outro exemplo:

Deslize para a esquerda ou para a direita para ver

Super jogabilidade

O protagonista de hoje, FLUX.1, usa uma nova tecnologia de “correspondência de fluxo”.

Enquanto os modelos de difusão anteriores criavam uma imagem removendo progressivamente o ruído a partir de um ponto inicial aleatório, a correspondência de fluxo adota uma abordagem mais direta, aprendendo as mudanças precisas necessárias para transformar o ruído em uma imagem real.

Esta diferença de abordagem resulta numa estética única e grandes vantagens em termos de velocidade e controlo.

Texto: A maioria deles pode ser obtida

Um dos desafios da geração de texto em imagem é converter com precisão o texto em representações visuais. FLUX.1 lida muito bem com isso, mesmo em cenas complexas como memes.

incitar:

Este é um bom meme de cachorro debaixo d'água Texto: 'A mudança climática é boa' Este é um meme de "bom cachorro" debaixo d'água. Texto: “As mudanças climáticas não são um grande problema”

incitar:

Um meme de um ator famoso fazendo uma careta engraçada com o texto 'Quando você esquece suas falas' em uma fonte peculiar Um meme de um ator famoso fazendo uma careta engraçada com o texto 'Quando você esquece suas falas' em uma fonte peculiar

A luz e a textura são boas

FLUX.1 tem um conhecimento profundo de luz, sombra e textura para produzir consistentemente imagens de alta qualidade.

incitar:

Uma imagem detalhada de um jardim onde as flores são feitas de vidro delicado, refletindo lindamente a luz do sol Uma imagem detalhada de um jardim onde as flores são feitas de vidro delicado, refletindo lindamente a luz do sol

Nesta imagem, o foco não está apenas na textura do vidro, mas também na forma como a luz é refratada e transmitida através das pétalas, criando um efeito luminoso.

incitar:

Penas de coruja se fundindo com as folhas de outono ao vento Penas de coruja se fundindo com as folhas de outono ao vento

Estilo de arte: mais que imitação

FLUX.1 parece ter dominado os princípios por trás de vários estilos artísticos, tornando possíveis reinterpretações criativas.

incitar:

aquarela da famosa pintura de ondas aquarela da famosa pintura de ondas

Esta versão em "aquarela" de "A Grande Onda de Kanagawa" não apenas implica que as ondas icônicas faziam parte dos dados de treinamento do modelo, mas também destaca como as técnicas de "fluxo" aproximam o movimento da tinta através da água, do papel e da tinta.

Composição: torne a cena significativa

FLUX.1 é excelente na construção de cenas complexas, posicionando objetos e personagens de uma forma realista e visualmente atraente.

incitar:

Uma imagem realista de uma biblioteca encantada onde os livros flutuam no ar e as estantes são feitas de raízes antigas e retorcidas Uma imagem realista de uma biblioteca encantada onde os livros flutuam no ar e as estantes são feitas de raízes antigas e retorcidas

“Flow”: uma nova linguagem visual

A tecnologia de correspondência de fluxo usada no FLUX.1 dá à imagem uma sensação única de movimento orgânico e fluidez, como se os próprios pixels estivessem fluindo.

incitar:

Cachorro com padrões de pelo estilo Van Gogh

Sempre há uma ferramenta que pode ajudá-lo a fazer isso

Podemos resumir o processo de geração de imagem como: pegue alguns pixels de entrada, mova-os ligeiramente para longe do ruído, em direção ao padrão criado pela entrada de texto, e repita esse processo até atingir um determinado número de etapas.

O processo de ajuste fino pega cada par de imagem/anotação do conjunto de dados e atualiza ligeiramente seu mapeamento interno.

Você pode ensinar qualquer coisa a um modelo dessa maneira, desde que ele possa ser representado por um par imagem-título: personagem, cenário, meio, estilo, gênero.

Esquerda: gerada usando o modelo FLUX.1 original; direita: gerada no modelo fofr/flux-bad-70s-food usando as mesmas dicas e sementes;

Durante o treinamento, o modelo aprenderá como associar esses conceitos a sequências de texto específicas. No prompt, você precisa adicionar esta string para ativar esta associação.

Por exemplo, você deseja ajustar um modelo de “super-herói em estilo de quadrinhos”.

Primeiro, um grande número de imagens sobre os personagens precisa ser coletado como um conjunto de dados, incluindo, mas não limitado a: diferentes cenas, figurinos, iluminação e talvez até diferentes estilos artísticos.

Em seguida, escolha uma palavra ou frase curta e incomum para servir como gatilho: algo único que não entre em conflito com outros conceitos ou ajustes. Você pode escolher termos como “comida ruim dos anos 70” ou “JELLOMOLD”.

Após o treinamento, basta fornecer um prompt que contenha uma palavra-gatilho, como "Cena de comida ruim dos anos 1970 em uma festa em São Francisco", e o modelo invocará os conceitos específicos que você adicionou durante o ajuste fino.

É tão simples.

Depois de compreender o princípio, podemos escolher qualquer ferramenta para ajustar o modelo.

Esquerda: gerada usando o modelo FLUX.1 original; direita: gerada no modelo fofr/flux-bad-70s-food usando as mesmas dicas e sementes;

Por exemplo, um cara chamado Matt Wolfe, depois de ver a geração legal acima, ficou curioso e experimentou.

Como resultado, ele derrubou...

As imagens de IA criadas podem ser chamadas de diferença entre a exposição do comprador e a exposição do vendedor.

Isso é o que ele gerou——

Isso é de outra pessoa -

As duas imagens são comparáveis. A diferença está no uso ou não do ajuste fino do LoRA.

O irmão mais novo que foi estimulado imediatamente foi fazer algumas pesquisas. Ficou agradavelmente surpreso ao descobrir que o modelo LoRA é muito pequeno, de apenas 2 a 500 MB, e pode ser facilmente combinado com os modelos existentes.

O que é ainda mais surpreendente é que o modelo de IA pode melhorar a qualidade da imagem, produzir um estilo único ou gerar personagens especiais, como Mario ou Bob Esponja, sem exigir poder computacional adicional ou reciclagem abrangente.

Infelizmente, no Glif, que uso facilmente, o LoRA não pode ser usado no Flux.

Ele descobriu que uma maneira de usar o Flux é usar o ComfyUI.

Acredito que muitas pessoas estão familiarizadas com esta imagem.

Alternativamente, você pode usar plataformas como Replicate, HuggingFace Spaces ou Fal AI.

Depois de testar na plataforma Fal, descobri que custa US$ 0,035 por megapixel. Portanto, você pode rodar o modelo 29 vezes por apenas US$ 1, o que é bastante econômico.

Aqui FLUX.1 dev, Flux Realism LoRA, FLUX.1 pro, etc.

Sem dizer uma palavra, o irmão mais novo escolheu Flux Realism LoRA.

Após uma depuração cuidadosa, defini o tamanho da etapa de inferência para 28 e CFG para 2.

As imagens resultantes são incríveis!

Se há alguma falha é que a iluminação das rugas da testa ainda não é natural.

Em seguida, o irmão mais novo importou a imagem com entusiasmo para o Gen-3 Alpha. Com base no prompt que ele digitou, o Gen-3 Alpha gerou um vídeo.

Só que em um determinado momento, o microfone em minha mão “flutuou” de repente e não havia nada de errado com o resto do vídeo.

O cara tentou novamente e gerou um segundo vídeo.

Desta vez, o microfone parecia imóvel demais, como se estivesse congelado no lugar.

Além disso, o irmãozinho também aderiu à tendência de se mudar por toda a Internet, gerando uma série de fotos hilárias.

Deslize para a esquerda ou para a direita para ver

Por fim, usei Gen-3 Alpha para transformá-lo em um vídeo, permitindo que eu e Deadpool caminhássemos na mesma cena do filme.

Referências:

https://x.com/dr_cintas/status/1824480995317350401

https://x.com/Gorden_Sun/status/1824843049421484309

https://replicate.com/blog/fine-tune-flux

https://x.com/laion_ai/status/1824814210758459548

https://www.youtube.com/watch?v=_rjto4ix3rA

https://www.youtube.com/watch?v=rDu481JFwqM

notícias

O ajuste fino do Flux conquistou toda a Internet, com estrangeiros formando uma equipe de heróis da Marvel!

Introdução

Minhas informações de contato