notícias

Todos os membros deixaram seu antigo clube, Stable Diffusion iniciou seus negócios e derrotou MJ v6 imediatamente.

2024-08-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Relatório do coração da máquina

Editor: Du Wei, Jiaqi

O campo de geração de imagens e vídeos de IA adicionou outro player poderoso.

Lembra-se de Robin Rombach, um cientista pesquisador que se demitiu da startup de IA Stability AI no final de março deste ano? Como um dos dois principais autores que desenvolveram o modelo gráfico Vincent Stable Diffusion, ele ingressou no Stability AI em 2022.



Agora, quase cinco meses depois de deixar a Stability AI, Robin Rombach tuitou a boa notícia de começar seu próprio negócio!

Ele fundou o "Black Forest Labs" para promover modelos de aprendizagem profunda generativa de alta qualidade SOTA para imagens e vídeos e disponibilizá-los ao maior número de pessoas possível.



Os membros da equipe são compostos por excelentes pesquisadores e engenheiros de IA. Seu trabalho representativo anterior inclui VQGAN e difusão latente, modelos de difusão estável no campo de geração de imagem e vídeo (incluindo difusão estável XL, difusão de vídeo estável e transformadores de fluxo retificado) e difusão adversária. Destilação para síntese de imagens ultrarrápida em tempo real.

Vale ressaltar que além de Robin Rombach, a Stable Diffusion conta com outros três autores que se tornaram membros fundadores da equipe, incluindo Andreas Blattmann, Dominik Lorenz e Patrick Esser. Ambos deixaram a Stability AI no início deste ano, com alguns especulando que eles saíram para iniciar seus próprios negócios.



Atualmente, o Labs concluiu uma rodada inicial de financiamento de US$ 31 milhões, liderada por Andreessen Horowitz. Outros investidores incluem os investidores anjos Brendan Iribe, Michael Ovitz, Garry Tan, Timo Aila, Vladlen Koltun e alguns conhecidos especialistas em pesquisa e empreendedorismo em IA. Além disso, também recebeu investimentos subsequentes da General Catalyst e da MätchVC.

O Labs também estabeleceu um conselho consultivo, cujos membros incluem Michael Ovitz, um magnata da tecnologia com vasta experiência na indústria de criação de conteúdo, e o professor Matthias Bethge, um pioneiro na transferência de estilo neural e um dos maiores especialistas em pesquisa aberta de IA na Europa.

Claro, o Black Forest Labs lançou sua primeira série de modelos "FLUX.1", que inclui os três modelos variantes a seguir.



A primeira variante éFLUX.1 [pró] , é um novo modelo de diagrama SOTA Vincent com detalhes de imagem extremamente ricos, fortes recursos de conformidade imediata e estilos diversos. Atualmente disponível via API.

Endereço API: https://docs.bfl.ml/



O segundo éFLUX.1 [dev] , que é uma variante não comercial e de peso aberto do FLUX.1 [pro] e é destilado diretamente deste último. Este modelo supera outros modelos de imagem, como Midjourney e Stable Diffusion 3. O código de inferência e os pesos foram colocados no GitHub. A imagem abaixo é uma comparação com modelos de imagem concorrentes.

Endereço GitHub: https://github.com/black-forest-labs/flux



O terceiro é de código abertoFLUX.1 [frase] , é um modelo supereficiente de 4 etapas que segue o protocolo Apache 2.0. Este modelo está muito próximo de [dev] e [pro] em desempenho e pode ser usado no Hugging Face.

Abraçando o rosto: https://huggingface.co/black-forest-labs/FLUX.1-schnell





Enquanto isso, o Black Forest Labs começa a se promover.



O próximo passo é lançar o modelo de vídeo SOTA Vincent que está disponível para todos e todos podem esperar por isso!



Sucesso instantâneo: a série de modelos de figuras Vincent "FLUX.1" está chegando

Os três modelos lançados desta vez pelo Black Forest Labs utilizam uma arquitetura híbrida de Transformer multimodal e de difusão paralela. Ao contrário de outras empresas que dividem uma série de modelos em “copo médio”, “copo grande” e “copo extra grande” de acordo com o número de parâmetros, os membros da família FLUX.1 foram uniformemente expandidos para uma enorme escala de 12 bilhões de parâmetros.



A equipe de pesquisa usou a estrutura Flow Matching para atualizar o modelo de difusão SOTA anterior. Pode-se inferir pelos comentários no blog oficial que a equipe de pesquisa seguiu o método Fluxo Retificado + Transformador proposto enquanto ainda trabalhava na Stability AI (em março deste ano).



Link do artigo: https://arxiv.org/pdf/2403.03206.pdf

Eles também introduziram incorporação de posição rotacional e camadas de atenção paralelas. Esses métodos melhoram efetivamente o desempenho do modelo na geração de imagens, e a velocidade de geração de imagens em dispositivos de hardware também se tornou mais rápida.

Desta vez, o Black Forest Labs não divulgou a tecnologia detalhada do modelo, mas um relatório técnico mais detalhado será divulgado em breve.

Todos os três modelos estabelecem novos padrões em seus respectivos campos. Seja a beleza das imagens geradas, o quão bem as imagens se ajustam aos prompts de texto, a variabilidade de tamanho/proporção ou a variedade de formatos de saída, FLUX.1 [pro] e FLUX.1 [dev] vão além de uma gama de Modelos populares de geração de imagens, como Midjourney v6.0, DALL・E 3 (HD) e SD3-Ultra.

FLUX.1 [schnell] é o modelo de poucos passos mais avançado até o momento, superando não apenas seus concorrentes, mas também modelos não destilados poderosos, como Midjourney v6.0 e DALL・E 3 (HD) Model.

O modelo é especificamente ajustado para reter toda a diversidade de resultados do estágio de pré-treinamento. Os modelos da série FLUX.1 também deixam muito espaço para melhorias em comparação com a tecnologia de ponta atual.



Todos os modelos da série FLUX.1 suportam uma variedade de proporções e resoluções, de 0,1 a 2 megapixels.



Alguns internautas que agiram rapidamente já experimentaram. Parece que o “mais forte” que o Black Forest Labs enfatizou repetidamente não é apenas a autopromoção.

Palavras simples podem criar esse efeito. Se você observar atentamente o padrão do tapete da alpaca, não haverá distorção ou deformação.



Palavra de alerta: Um Emu esmeralda montado em uma lhama branca.

Sem dizer que se trata de uma imagem gerada por IA, é difícil dizer se se trata de uma foto tirada por um fotógrafo.



Palavra de alerta: Um cavalo está brincando com dois crocodilos no rio.

Imagens contendo texto também podem ser facilmente manipuladas e a profundidade de campo também é processada para corresponder à sensação real da lente.



Entre os três modelos, o FLUX.1 [schnell], que tem desempenho um pouco mais fraco, também é rápido e poderoso de usar. Alguns internautas compartilharam sua experiência de executá-lo em um Mac e não puderam deixar de suspirar, realmente vale a pena. .



Internautas que não sabiam muito sobre as “queixas” entre os autores de Difusão Estável e IA de Estabilidade lamentaram: Um modelo gráfico vicentino apareceu do nada e era simplesmente terrivelmente poderoso.



Sobre a história do autor de Stable Diffusion e sua antiga empresa Stability AI, você pode ler relatórios anteriores da Machine Heart: Quando foi avaliado em US$ 100 milhões, as equipes por trás da Stable Diffusion começaram a brigar entre si. ?

Além dos três modelos vicentinos mais poderosos, o Black Forest Labs também está atrasando sua “grande jogada”. Com capacidades tão poderosas para modelos de geração de imagens, o Black Forest Labs estabeleceu uma base sólida para modelos de geração de vídeo e, como preveem, esses principais cientistas em visão computacional estão avançando em direção a uma tecnologia de vídeo de última geração para todos. .

Blog da empresa: https://blackforestlabs.ai/announcements/