Minhas informações de contato
Correspondênciaadmin@informação.bz
2024-08-18
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Autor|Xuushan, editor|Manman Zhou
“
Muitas pessoas esperam que se torne o próximo Midjourney.
”
Esta pode ser a startup de IA com maior execução da história.
Apenas 15 dias após a sua criação, a startup de IA Black Forest Labs já arrecadou US$ 32 milhões em financiamento inicial e lançou a série FLUX.1 de grandes modelos Vincent AI.
Além disso, até mesmo o Grok-2, um grande modelo de IA recém-produzido por Musk, lançou rapidamente uma função gráfica vicentina com seu apoio, atraindo milhões de internautas para participar da interação.
E ao contrário da função de imagem vicentina de outros modelos de IA, quase não há restrições nas imagens geradas no Grok-2 e são bastante realistas.
Se você deseja que Steve Jobs provoque o gato ou que Zuckerberg e Musk se encontrem off-line na "gaiola octogonal", Grok-2 pode satisfazer seus desejos. Pode-se observar que o modelo tem um desempenho muito bom em termos de compreensão semântica, alinhamento e capacidade de geração de imagens (exceto segurança).
Qual é a origem desta empresa? Como isso deixou os internautas loucos por isso, e até mesmo Musk estava disposto a escolhê-lo para alimentar seus principais produtos? Após uma investigação aprofundada, o Sr. Silicon Rabbit finalmente desvendou o mistério dos Laboratórios da Floresta Negra.
01
A oportunidade para o estabelecimento de Laboratórios da Floresta Negra começa com a Stability AI, outra empresa unicórnio de IA.
Na verdade, a atual equipe inicial de 15 pessoas do Black Forest Labs é toda da Stability AI. Pode-se dizer que a criação dos Laboratórios Floresta Negra foi uma fuga coletiva de funcionários.
O fundador do Black Forest Labs, Robin Rombach, foi um ex-cientista pesquisador da Stability AI e um dos dois pilares principais da Stability AI.
Ele estudou física na Universidade de Heidelberg e iniciou seus estudos de doutorado no grupo de visão computacional da universidade em 2020. Robin tem se concentrado em modelos de aprendizagem profunda, especialmente na área de gráficos vicentinos, e depois ingressou na Universidade de Munique em 2021 com a equipe de pesquisa científica.
Durante seu tempo na Stability AI, ele liderou o desenvolvimento do grande modelo vicentino de IA gráfica.Difusão estável. No início, a Difusão Estável poderia ser considerada a senhoria no campo da imagem de IA, causando um choque na indústria. A avaliação da Stability AI também ultrapassou US$ 1 bilhão, tornando-a um dos unicórnios da IA.
Mas o desenvolvimento da IA de estabilidade sofrerá uma reviravolta acentuada em 2024. Segundo relatórios, os custos anuais da Stability AI são de aproximadamente 99 milhões de dólares, mas as suas receitas são de apenas 11 milhões de dólares, resultando num grave desequilíbrio entre receitas e despesas. Posteriormente, o ex-CEO da Stability AI, Emad Mostaque, retirou pelo menos 19 executivos seniores da empresa em março deste ano.
Robin Rombach também começou a procurar uma saída novamente. Black Forest Labs é um novo começo para ele e um novo ponto de partida para muitos ex-funcionários da Stability AI. Quando o Black Forest Labs foi estabelecido, muitos funcionários da Stability AI disseram com entusiasmo: “Estamos no ar!”.
Atualmente, existem três versões dos modelos da série FLUX.1, tanto de código aberto quanto de código fechado. Entre eles, FLUX.1 [pro] é a versão de código fechado mais poderosa, projetada para aplicações profissionais que buscam desempenho superior; FLUX.1 [dev] é um modelo de IA de código aberto que fornece desempenho mais eficiente em qualidade de imagem e rapidez; serviço, mas não para uso comercial; FLUX.1 [schnell] é uma versão de código aberto projetada para desenvolvimento local e uso pessoal. É a mais rápida das três versões e requer a menor memória.
Todos os três modelos têm versões de teste abertas em Replicate e Models. Em apenas meio mês, FLUX.1 [dev]AbraçoCaraO número de downloads ultrapassou 200.000, e o número de downloads do FLUX.1 [schnell] ultrapassou 580.000, e o número de experiências atingiu 380 milhões de vezes.
Link de experiência de registro: FLUX.1 [schnell]: https://replicate.com/black-forest-labs/flux-schnell
02
Embora os modelos da série FLUX.1 sejam criados pela equipe original da Stable Diffusion, isso não significa que sejam réplicas da Stable Diffusion.
A mídia reuniu Flux, SD3 Medium, Auraflow e Midjourney para revisão. Pode-se observar que o atual modelo gráfico vicentino, relativamente excelente, gera fotos diferentes para o mesmo prompt de texto.
Primeiro, diga um: "Ilustração desenhada à mão de uma aranha gigante perseguindo uma mulher na selva. Cena extremamente assustadora, dolorosa, sombria e assustadora, com uma atmosfera assustadora e sugestiva."
Pode-se ver que o Flux usa muito bem luzes e sombras para criar uma sensação de terror. O desenho da aranha é realmente assustador, as pernas são afiadas e o rosto da aranha é muito realista. O tom ciano do Auraflow não atinge um efeito escuro e assustador, e a imagem geral é estilizada. O estilo preto e branco do SD3 Medium dá às pessoas uma forte sensação de esboço. O desenho da aranha é detalhado e assustador, mas a caracterização é um pouco inconsistente.
A segunda avaliação examina principalmente a capacidade dos geradores de imagens de compreender o espaço. O prompt de texto diz: “Um cachorro está em cima de uma televisão com a palavra ‘Descriptografar’ exibida na tela. À esquerda está uma mulher de terno segurando uma moeda, e à direita está um robô em pé sobre um pronto-socorro kit. Toda a cena foi surreal.”
A imagem gerada pelo Flux é a mais próxima da descrição, pois coloca todos os elementos onde eles precisam estar. A composição geral é equilibrada, o design de cada elemento e o estilo retro-futurista atendem às exigências do surrealismo. Mas também tem algumas deficiências, como o personagem ter uma mão extra. SD3 Medium ficou em segundo lugar. O design geral também atendeu aos requisitos de descrição do texto, mas faltou precisão. Por exemplo, o cachorro em estilo de desenho animado deveria estar em pé em vez de sentado. O Auraflow apresenta lacunas na precisão da compreensão do texto e na qualidade das imagens que apresenta.
A dica três diz: "Uma foto em alta resolução de uma rua movimentada da cidade à noite. Luzes de néon iluminam a cena. As pessoas caminham pela calçada, os carros passam e os vendedores ambulantes vendem cachorros-quentes. As luzes se refletem na estrada escorregadia. O estilo geral. Hiper-realista, atenção aos detalhes e iluminação, o letreiro de néon diz 'Descriptografado' "Esta dica se concentra em observar o realismo dos principais geradores de imagens.
A imagem gerada pelo Flux é rica em detalhes e bem iluminada. A imagem retrata bem a rua movimentada, com sinais claros e imagens vívidas de pedestres. SD3 também é capaz de mostrar uma composição equilibrada, iluminação realista e elementos cuidadosamente integrados, mas a representação de pedestres é um pouco tênue.
Por fim, a mídia estrangeira Decrypt também colocou Flux e Midjourney em duas avaliações e, finalmente, julgou o Flux mais forte.
A primeira mensagem de texto diz: “Uma foto em preto e branco de uma mulher com cabelos longos e lisos sentada no chão em frente a um sofá moderno, vestindo uma roupa toda preta que destaca suas curvas. pernas delgadas são expostas enquanto ela se agachava contra um cenário minimalista que acentuava sua pose elegante. Fotografado por Peter Lindbergh usando uma lente Hasselblad X2D 105mm com abertura f/4 para maior apelo visual.
A Decrypt acredita que o Flux captura os requisitos do prompt com poses naturais, planos de fundo contextuais e renderização detalhada. Morfologicamente falando, é o mais preciso. Midjourney mostra imagens vívidas e detalhes ricos nas imagens, mas não possui camadas de imagem como o Flux, e a representação da postura corporal não é tão precisa quanto o Flux.
O segundo prompt de texto dizia “Foto de corpo inteiro de um gato branco tocando piano, usando óculos escuros e chapéu, vestindo uma roupa roxa estilo havaiano contra um fundo cinza de estúdio, para uso comercial”.
Decrypt acredita que o Flux atende aos requisitos de uma foto de corpo inteiro, fundo de estúdio cinza e roupas designadas. A composição é profissional e requintada e atende totalmente aos requisitos imediatos. Midjourney oferece fotos em close-up e a imagem é expressiva, mas não atende aos requisitos de fotos de corpo inteiro e fundos de estúdio.
Percebe-se que o Flux tem estado na vanguarda da indústria em termos de detalhes fotográficos e compreensão do espaço e estilização. Ele pode competir com o Midjourney e é ainda melhor que o Midjourney em alguns aspectos.
03
Pode-se dizer que o campo de AI Wenshengtu está no momentoIA generativaUma das pistas mais quentes da área. Atualmente, Google, Meta e OpenAI estão de olho neste campo. As capacidades demonstradas pelo FLUX.1 levaram muitas pessoas a esperar que ele se tornasse o próximo Midjourney.
Mas a chave para se tornar o próximo Midjourney está na comercialização.
O plano básico do Midjourney, pioneiro na mesma linha, custa US$ 96 por ano e pode gerar cerca de 200 imagens por mês, o que equivale a 25 imagens por dólar. O plano básico do Ideogram custa US$ 84 por ano e pode gerar até 400 imagens por mês, ou 50 imagens por dólar.
A Floresta Negra fez parceria com a Fal AI, desenvolvedora do modelo de código aberto Auraflow, para apoiar a geração de nuvem. Esses modelos também estão disponíveis para teste gratuito em Replicate.com. Assim que os usuários atingirem sua cota diária gratuita, eles poderão optar por usar o modelo Flux Pro para gerar 33 imagens por US$ 1 ou usar o Flux Schell para gerar 333 imagens por US$ 1.
Comparado com Midjourney e Ideogram, Black Forest oferece aos usuários mais opções. Mas isto não representa o sucesso comercial da Floresta Negra. O custo de manutenção de um modelo generativo de IA é muito elevado. Tomemos como exemplo a Stability AI. De acordo com a Forbes, a Stability AI gasta cerca de 8 milhões de dólares por mês em custos e salários, mas a sua receita é de apenas 1,2 milhões de dólares, o que está longe de cobrir os custos. Hoje, a comercialização também se tornou um elo “travado” para Ideogram e Pika Labs AI.
Portanto, para realmente superar o Midjourney, a forma como a Floresta Negra equilibra receitas e despesas será a chave para o seu domínio do grande modelo vicentino de IA.
04
Black Forest Labs e Musk parecem concordar em construir um “chatbot de IA anti-despertar” e nenhum deles quer impor muitas restrições à IA.
O “chatbot de IA anti-desperto” aqui se refere a um chatbot de IA que evita deliberadamente adotar certas visões politicamente corretas ou socialmente despertadas. Ele não filtrará tópicos controversos quando confrontado com eles. Grok é obviamente o portador do conceito de “chatbot AI anti-despertar” de Musk.
Em termos de avaliação de segurança, embora Grok tenha mencionado suas seis “proibições”, incluindo restrições de conteúdo, direitos autorais, complexidade de processamento de imagem, etc., na verdade, a julgar pelas fotos geradas, Grok quase não tem tabus, incluindo celebridades, pornografia, violência, As imagens geradas tornaram-se populares na plataforma social X.
Embora várias agências reguladoras tenham expressado insatisfação com a Plataforma Social X, Musk ainda parece imperturbável. Após o lançamento do Grok-2, Musk também permitiu que os usuários publicassem imagens de IA geradas por Grok diretamente na plataforma, sem quaisquer avisos de marca d'água gerados por IA ou por Grok.
Musk mencionou na plataforma social X em 2022 que estabelecer limites para IA reduziria a segurança do modelo de IA. "É fácil acordar IA de treinamento. Em outras palavras, o perigo de mentir (IA) é fatal." Alguns meios de comunicação especularam que pode ser porque o modelo da série FLUX.1 não impôs muitas restrições que levaram Musk a escolher Grok. para assumir. Entre nos modelos da série FLUX.1.
de acordo comA BeiraDe acordo com a avaliação de muitos meios de comunicação, o modelo semelhante de IA de imagem do Google, Imagen, e o DALL·E 3 da OpenAI também se recusaram a gerar palavras imediatas com "conotações perigosas", mas Grok respondeu rapidamente e gerou imagens rapidamente.
Há apenas meio mês, quando o Black Forest Labs foi fundado, anunciou que o objetivo da empresa era “aumentar a confiança das pessoas na segurança desses modelos”. Meio mês depois, Black Forest Labs e Musk defenderam "não restrições à IA" e abriram a caixa preta do modelo vicentino de IA.
Diante de muitas polêmicas, o Black Forest Labs agora opta por evitar falar sobre o assunto, tentando desviar o foco da discussão para outras direções. Seu membro do conselho, Anjney Midha, criticou o Google na plataforma social X em 14 de agosto GêmeosQuando foi lançado pela primeira vez, havia discriminação racial oculta e outras situações no campo da gráfica vicentina, e foi afirmado que tais situações não ocorreriam nos modelos da série FLUX.1.
Podemos ver que em termos de capacidades gráficas vicentinas, os modelos da série FLUX.1 são realmente poderosos e já podem competir com o Midjourney. Mas em termos de segurança, o Black Forest Labs parece ter escolhido um caminho diferente dos jogadores que estão na mesma pista.
A “não instalação de grades de segurança” fará do Black Forest Labs o ator absolutamente dominante no campo dos gráficos vicentinos? Ou destruirá a nova popularidade dos modelos da série FLUX.1 de uma só vez? Veremos.