O modelo gráfico Wensheng de código aberto mais poderoso mudou de mãos da noite para o dia! Criado pela equipe original do SD, modelo de geração de vídeo SOTA será lançado

2024-08-02

Coisas inteligentes (conta pública:zhidx com）
autorbaunilha
editarLi Shuiqing

O modelo gráfico Wensheng de código aberto mais poderoso mudou de mãos da noite para o dia!

Zhidongxi informou em 2 de agosto que ontem à noite, o overlord do modelo gráfico Wensheng de código abertoDifusão estávelA equipe original anunciou o lançamento de um novo modelo de geração de imagensFLUXO.1。

FLUX.1 contémEdição Profissional, Edição para Desenvolvedores, Edição ExpressaDos três modelos, os dois primeiros superaram os modelos convencionais, como SD3-Ultra, e o menor FLUX.1 [schnell] também superou os modelos maiores, como Midjourney v6.0 e DALL·E 3.

▲ Pontuação FLUX.1 ELO em comparação com modelos convencionais

FLUX.1 pol.Geração de texto, instruções complexas seguindoeGerado manualmente tem vantagens. A seguir está um exemplo de imagens geradas por seu modelo de versão profissional mais poderoso FLUX.1[pro]. Você pode ver que mesmo quando grandes seções de texto e vários caracteres são gerados, não há erros em detalhes como caracteres e mãos humanas. .

▲ Exemplo de imagem gerada FLUX.1[pro]

FLUX.1 já está disponível na plataforma de código aberto Replicate, aqui estão minhas dicas para usá-lo “O menor bolo da Floresta Negra do mundo, do tamanho de um dedo, cercado por árvores da Floresta Negra”, as imagens geradas nos três modelos levaram respectivamente17,5s、12,2s、1,5s。

▲ Comparação de três gerações de modelos

O FLUX.1 também abre uma API (Application Programming Interface) e tem preço baseado na quantidade de imagens. Os preços dos três modelos são por imagem por vez.US$ 0,055, US$ 0,03, US$ 0,003(Aproximadamente RMB 0,4, 0,22 e 0,022 yuan).

A empresa por trás do FLUX.1 se chamaLaboratórios da Floresta Negra (Laboratório Floresta Negra), fundado pela equipe original da Stable Diffusion e vários ex-pesquisadores da Stability AI.Semelhante ao Stability AI, a Floresta Negra está comprometida em desenvolver modelos multimodais de alta qualidade e abri-los.US$ 31 milhões(aproximadamente 225 milhões de RMB) em financiamento inicial.

Floresta Negra também brinca que será lançado em breveModelo de vídeo SOTA (nº 1 em indicadores técnicos atuais) . A julgar pela demonstração lançada, tanto a suavidade, a estabilidade e a simulação física atingiram o primeiro nível. A empresa pode se tornar um azarão no campo da geração de vídeo.

▲ Visualização do modelo de geração de vídeo

Endereço de teste de três modelos:

https://replicate.com/black-forest-labs/flux-pro

https://replicate.com/black-forest-labs/flux-dev

https://replicate.com/black-forest-labs/flux-schnell

1. Bom na geração de texto e mãos humanas, três modelos podem ser gerados em segundos em escala

FLUX.1 possui desempenho superior em termos de qualidade visual, detalhes de imagem e diversidade de saída. Possui três características principais:Geração de texto, composição complexa, desenho à mão humana。

A geração de texto é muito importante na geração de imagens e vídeos, e muitos modelos tendem a confundir letras que parecem semelhantes. FLUX.1 pode lidar com palavras complicadas com letras repetidas, como gerar umBolo Schnell Flux Floresta Negra：

▲ Bolo Flux Schnell da Floresta Negra

Quando se trata de composição, o FLUX.1 é excelente em seguir instruções complexas, como onde as coisas deveriam estar na imagem. Por exemplo, FLUX.1 interpreta perfeitamente este prompt: Três bruxos mágicos estão sobre uma mesa amarela, cada um segurando uma placa. À esquerda, um bruxo com vestes pretas segura uma placa que diz "AI" no meio, uma bruxa com vestes vermelhas segura uma placa que diz "IS"; "AI" Uma placa que diz "legal".

▲ Composição complexa

As mãos humanas sempre foram a área mais atingida pelos modelos generativos multimodais. Embora a imagem da mão humana gerada pelo FLUX.1 ainda não seja perfeita, alcançou um grande progresso.

▲ Mão de obra

FLUX.1 totalEdição Profissional, Edição para Desenvolvedores, Edição ExpressaTrês versões.

em,FLUXO.1[pró]É a versão mais avançada com rastreamento instantâneo de alto nível, qualidade visual, detalhes de imagem e diversidade de saída, fornecendo soluções empresariais personalizadas para usuários profissionais.

▲ Exemplo de imagem gerada FLUX.1[pro]

FLUX.1[dev]Destinado a aplicações não comerciais, é refinado a partir do FLUX.1[pro] e oferece qualidade e capacidades semelhantes, sendo ao mesmo tempo mais eficiente que os modelos padrão do mesmo tamanho.

▲ Exemplo de imagem gerada FLUX.1[dev]

FLUX.1[chave]O mais rápido dos três modelos, é personalizado para desenvolvimento local e uso pessoal e está disponível publicamente sob a Licença Padrão Apache 2.0.

▲ Exemplo de imagem gerada FLUX.1[schnell]

FLUX.1 agora está disponível na plataforma de código aberto Replicate e pode ser executado na nuvem com apenas uma linha de código, ou os usuários podem baixar pesos de modelo e executá-los programaticamente. A API do FLUX.1 também está aberta simultaneamente, e os preços dos três modelos são os seguintes:US$ 0,055, US$ 0,03, US$ 0,003(Aproximadamente RMB 0,4, 0,22 e 0,022 yuan).

2. DerrotaMJ V6DALLE 3, relatório técnico será divulgado em breve

Em termos de desempenho, o FLUX.1 foi especialmente ajustado para reter toda a diversidade de resultados no pré-treinamento, estabelecendo novos padrões em muitos aspectos, como conformidade com instruções, qualidade visual, alterações de tamanho/comprimento e largura, etc.

Entre eles, dois modelos, FLUX.1 [pro] e [dev], superaram modelos populares como Midjourney v6.0, DALL·E 3 e SD3-Ultra em cinco critérios de avaliação.

Como modelo leve, o FLUX.1[schnell] não é apenas melhor que concorrentes similares, mas também melhor que modelos não destilados poderosos, como Midjourney v6.0 e DALL·E 3.

▲ Comparação de desempenho do FLUX.1 com modelos convencionais

Além disso, todos os modelos FLUX.1 suportam múltiplas proporções e resoluções de 0,1 e 2,0 megapixels.

▲ Alterações na proporção/resolução

Como é alcançado um desempenho tão poderoso?

Em termos de arquitetura do modelo, o FLUX.1 adota uma arquitetura híbrida baseada em módulos transformadores de difusão multimodal e paralela e a estende para parâmetros de 12B.

A equipe melhorou o modelo de difusão de última geração construindo Flow Matching e melhorou o desempenho do modelo e a eficiência do hardware combinando Rotary Position Embedding e camadas de atenção paralelas. Um relatório técnico mais detalhado será divulgado em breve.

três,SDA tripulação original,2.25100 milhõesRodada de sementes, quero enviarSOTAmodelo de vídeo

O Black Forest Lab foi estabelecido pela equipe fundadora da Stable Diffusion. O trabalho anterior da equipe também incluiu o modelo de geração de imagem de alta qualidade VQGAN, o modelo de geração de vídeo Stable Video Diffusion, etc.

Entre os 5 autores originais de Stable Diffusion,4Os membros que ingressaram no Stability AI e continuaram a desenvolver versões subsequentes do SD, incluindo Robin Rombach, Andreas Blattmann, Dominik Lorenz e Patrick Esser, fazem parte da equipe fundadora do Black Forest Labs.

▲ Autor de Stable Diffusion e equipe fundadora do Black Forest Lab

A equipe disse que suas principais crenças são desenvolver modelos amplamente acessíveis, promover a inovação e a colaboração nas comunidades acadêmicas e de pesquisa e aumentar a transparência do modelo.

Black Forest Labs anuncia conclusãoUS$ 31 milhões(aproximadamente 225 milhões de RMB)Financiamento da rodada inicial, liderado pela conhecida instituição de capital de risco a16z (Andreessen Horowitz), Brendan Iribe, CEO do fabricante de VR Oculus, Garry Tan, CEO da incubadora de startups YC, o pesquisador da NVIDIA Timo Aila e outros especialistas e empresas de IA também participaram do investimento, e também recebido Houve investimentos de acompanhamento de fundos de primeira linha, como o General Catalyst.

O conselho consultivo da equipe inclui o ex-presidente da Disney, Michael Ovitz, que tem vasta experiência na indústria de criação de conteúdo, e o professor Matthias Bethge, pioneiro na transferência de estilo neural.

Mestre de IA que acabou de iniciar seu negócioAndrei Capasi(Andrej Karpathy) enviou suas bênçãos à equipe da Floresta Negra e disse que "o modelo de geração de imagens FLUX.1 de código aberto parece muito poderoso".

▲ Comentários de Kapasi

Ex-líder da equipe fundadora - ex-CEO da Stability AIEmad Mostak(Emad Mostaque) também enviou uma mensagem de parabéns e disse: “Foi uma honra trabalhar com eles antes e acredito que eles continuarão a ultrapassar limites na jornada de geração de cada pixel”.

▲Comentários Mostaq

Na próxima etapa do trabalho, Black Forest Trailer lançará umModelo de vídeo SOTA Vincent , "Permite que todos convertam texto em vídeo." O modelo será construído no FLUX.1, “permitindo criação e edição precisas em alta definição e velocidade sem precedentes”.

▲ Visualização do modelo de geração de vídeo

Conclusão: Dark Horses emergem no campo de grandes modelos multimodais

Embora muitos grandes fabricantes e start-ups sejam loucos pelos vídeos de Vincent, o campo das fotos de Vincent de repente deu início a um azarão. O FLUX.1 “nascido do nada” não só demonstra excelente desempenho, superando dificuldades na geração de texto, composição complexa e desenho manual, mas também atende às necessidades de diversos usuários com versões diversificadas.

Contando com a forte força da equipe original da Stable Diffusion, o Laboratório da Floresta Negra obteve um generoso financiamento inicial e atraiu a atenção e o apoio de muitos líderes da indústria. Os modelos de vídeo que serão lançados no futuro irão injetar uma nova vitalidade no campo do vídeo Vincent.

notícias

O modelo gráfico Wensheng de código aberto mais poderoso mudou de mãos da noite para o dia! Criado pela equipe original do SD, modelo de geração de vídeo SOTA será lançado

Introdução

minhas informações de contato