notícias

O status de Midjourney é instável? Outro azarão no desenho de IA aparece, com testes em primeira mão de 4 produtos

2024-08-25

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Círculo AI, geração de imagens de livro aberto novamente.

Uma série de desenvolvimentos reunidos:

21 de agosto,Ideogram lança oficialmente a versão 2.0, alegando ter recursos de renderização de texto mais fortes.

É isso mesmo, é o projeto que foi fundado em agosto do ano passado pelos quatro figurões do Google AI Painting que, coletivamente, deixaram seus empregos para iniciar um negócio. Ele recebeu investimentos de vários figurões da IA.

Desta vez Ideograma tambémDesafio aberto ao Flux, o funcionário afirmou com segurança que sua avaliação humana é significativamente melhor que a do Flux Pro.

Você sabe, o Flux foi criado pela equipe original da Stable Diffusion e recentemente se tornou popular nas principais redes por gerar "fotos" de palestras do TED que parecem reais.

Além disso, há uma semana, o Google lançou oficialmenteImagem 3, em avaliações oficiais, afirma-se ter um desempenho melhor que DALL-E 3, Midjourney v6, Stable Diffusion 3 e outros modelos de desenho.

Talvez devido ao estímulo (doge), Midjourney também fez a transição e foi lançado diretamente para todos os usuários em 22 de agosto.Versão web gratuita

Tem algo bom para assistir agora!

Já que todos afirmam ser fortes, podemos muito bem trazer todos para a mesma mesa e ter um PK cara a cara.

Quem é a IA de desenho mais forte?

Vamos primeiro convidar nossos 4 concorrentes (todos usando a versão web):

Concorrente nº 1: Ideograma 2.0.São 10 pontos gratuitos todos os dias, 1 ponto pode gerar 4 fotos e no máximo 40 fotos podem ser geradas por dia;

Jogador nº 2: Flux.1.A Floresta Negra oferece oficialmente uma demonstração gratuita no Hugging Chat (selecione a versão FLUX.1 Schnell);

Concorrente nº 3: Imagem 3.Uso gratuito e ilimitado no Image FX;

Jogador nº 4: meio da jornada.Durante o período de teste gratuito, você só terá a oportunidade de gerar um total de 25 fotos;

Agora entramos oficialmente na fase de competição.

Os macacos pretos todos virados

Primeiro, para testar essas IA estrangeirasVocê entende as palavras de alerta chinesas?, vamos também aproveitar a popularidade dos principais macacos negros da atualidade.

prompt: O personagem do jogo é um macaco, vestindo uma armadura, uma coroa dourada com penas de fênix na cabeça e segurando um aro dourado na mão, em pé sobre um penhasco.

Como esperado, um acidente aconteceu...

Acredito que todos foram atraídos pela grande cruz vermelha no número 3 à primeira vista. Isso mesmo, sob a mesma palavra de alerta, só existe a Imagem 3Solicitação de compilação negada

Quando vi isso, minha primeira reação foi se nossas palavras imediatas desencadearam a proteção de direitos autorais. Então, primeiro excluí o "personagem do jogo" na palavra do prompt, mas o resultado foi que o lembrete não pôde ser gerado.

É porque o Google Imagen 3 não suporta chinês? Então mudei aleatoriamente a palavra do prompt para uma mais simples e desta vez havia uma imagem.

Acontece que o resultado foi um grande erro, e várias palavras de prompt em chinês foram alteradas e, no final, eram todas imagens de textura irrelevantes.

PareceO Google Imagen 3 realmente não aceita palavras de prompt em chinês

Depois que o número 3 falhou na lista, olhando para os outros, havia apenasNº 1 Ideograma 2.0 tem melhor desempenho

O número 2 ainda pode ver a sombra dos quadrinhos chineses, mas o número 4, Midjourney, se deixou levar completamente ~ (o tema principal não tem nenhuma relação)

Finalmente, gostaria de elogiar o Ideogram 2.0 por atingir com precisão todos os elementos-chave.

Embora não seja o que eu quero em meu coração (eu quero a Mitologia Negra), não há realmente nada de errado com a restauração das palavras prontas.

É uma pessoa real ou IA? Bobo, não consigo perceber a diferença

Em seguida, entre na zona de conforto de cada jogador——Geração de retrato

Naquela época, Midjourney se tornou popular na Internet com a foto de um casal no telhado, agora o Flux é até popular na Internet com um conjunto de imagens de discursos do TED...

Quem é melhor? A resposta será revelada em breve.

prompt:Um jovem com cabelo ruivo, vestindo uma camisa xadrez em azul-petróleo e creme, capturado com uma lente de 50 mm para um visual vintage. Cores ricas, foco nítido e um toque de charme retrô.

Um jovem com cabelos ruivos, vestindo uma camisa xadrez verde-azulada e creme, capturado com uma lente 50 mm em estilo retrô. As cores são ricas e o foco é nítido com um toque de charme vintage.

Olhando primeiro para o número 2 e o número 4, é óbvio que Midjourney venceu!

Olhando para os detalhes, nº 2Flux.1 está ligeiramente desligado, há mais duas cores de roupas, com destaque especial entre as camisas xadrez azul e verde.

Além disso, também descobrimos a Imagem 3 no inícioUm pequeno destaque único: Circule a palavra-chave antes do início da geração.

Com o trabalho que tem feito, podemos apenas testar o desempenho de vários jogadores.elementos-chave(Camisa xadrez azul esverdeada, lente 50mm, etc.).

Percebe-se que no geral vários jogadores tiveram um bom desempenho (exceto o nº 2), com alto grau de restauração e todos olhando para a câmera.

Além disso, se estes não fossem gerados por mim mesmo usando IA, eu não seria capaz de distinguir imediatamente as pessoas reais. (Envergonhado)

Por fim, gostaria de dizer calmamente que o Concorrente nº 4, Midjourney, tem a melhor aparência.

Grande dificuldade: texto de exibição de imagem

Depois de enganar a todos com sucesso, é hora de deixar a IA sofrer um pouco——

Adicione texto às imagens

Este assunto sempre foi um problema antigo e também se tornou um dos padrões para testar o nível de desenho de IA.

Sem mais delongas, vamos deixar alguns concorrentes fazerem um outdoor requintado. Todos os leitores, por favor, tragam seu próprio papel como pai do Partido A.

prompt:Uma placa horizontal de latão com os dizeres "Época Festiva" em uma escrita elegante, cercada por pinheiros e azevinhos em um fundo de madeira escura, com foco em close-up nas letras douradas.

Uma placa horizontal de latão que diz 'Época Festiva' em uma escrita elegante é cercada por galhos de pinheiro e azevinho contra um fundo de madeira escura, com um close-up focado nas letras douradas.

Depois de uma rápida olhada, eles estão todos muito bons? Parece que restauraram as palavras imediatas em um alto nível?

No entanto, uma vez revelados os olhos penetrantes do pai do Partido A, o número 2 não consegue escondê-los.

Preste atenção, número 2Flux.1 corta cantos, a palavra "Temporada" não contém a letra "S".

Mas, exceto o número 2, os outros são muito bons. Parece que várias empresas de IA estão indo bem.Função de renderização de textoTodos os esforços foram feitos.

Portanto, o próximo passo é que cada um tenha suas próprias preferências por rabanete e vegetais verdes, e cada um faça uma escolha com base em suas preferências pessoais. (Votei pessoalmente em Midjourney)

A propósito, o Ideograma nº 1 promoveu especialmente a função de “renderização de texto” nesta atualização de modelo.

Consulte o McDonald's, o objetivo principal da publicidade de IA

Recentemente, o McDonald's contratou 11 beldades de IA para destacar suas batatas fritas, o que as tornou muito populares ~

Na verdade, o princípio é relativamente simples: nada mais é do que usar IA para gerar imagens de diferentes personagens promovendo batatas fritas e depois juntá-las em um vídeo.

Inesperadamente, o efeito foi surpreendente. Só no Twitter, o vídeo relevante recebeu quase 10 milhões de visualizações.

Depois de dominar o código de riqueza, começamos oficialmente a trabalhar como chineses,IA ajuda agricultoresVocê tem que andar para cima e para baixo ~

prompt:No cenário de uma metrópole de estilo cyberpunk, uma garota está promovendo produtos agrícolas orgânicos em suas mãos.

Num cenário urbano de estilo cyberpunk, uma rapariga promove os produtos orgânicos que tem nas mãos.

Muito bem, o jogador nº 3 “falhou” novamente. No entanto, esta onda é realmente intrigante. As palavras não estão em chinês nem são obviamente proibidas...

Após a eliminação do nº 3, o Concorrente nº 1 Ideograma 2.0 trouxe a maior variedade de produtos, incluindo repolho chinês, tomate, repolho roxo, etc.

E foi o único que digitousinal de textoVim aqui para promover alimentos orgânicos e posso ver que eles estão trabalhando muito ~

Além disso, se você olhar de perto, verá que apenas o nº 1 está fazendo o possível para imitar a pessoa real, enquanto o nº 2 e o nº 4 estão completamentemacaco de dois espinhos

u1s1, se você se referir ao estilo publicitário de Maimai, essa geração de curto prazo não obteve o efeito desejado. (Espero que mais perto da realidade)

No entanto, felizmente, estas ferramentas de IA estão atualmente disponíveis gratuitamente. Não é impossível experimentá-las várias vezes. 🐶

Não saia com pressa, na verdade existe uma maneira mais confiável de ganhar dinheiro——

Use IA para controlar facilmente fotos de estúdiocartazes de negócios, não seria bom economizar dinheiro em fotógrafos, locais e pós-produção.

Um tubo de batom elegante brilha contra um pano de fundo de sofisticação, destacando o pigmento rico e o deslizamento suave. Evoque luxo com foco nítido e um toque de brilho.

Um tubo de batom elegante brilha contra um fundo sofisticado, destacando cores intensas e aplicação suave. Evoque uma sensação de luxo com foco nítido e um toque de brilho.

Vamos testar todo mundo, se você tivesse que escolher um batom para uma mulher ao seu redor, qual você escolheria? (O teste da morte está chegando)

Hehe, então alguém escolheu o número 4?

Embora a cor cinza do No. 4 Midjourney pareça muito sofisticada, a cor preta pode ser um pouco nicho. (Escolha com cuidado)

Além disso, os próximos melhores desempenhos sãoImagem 3, o tecido de veludo por baixo traz uma sensação de luxo e, o mais importante, a textura do batom é muito real.

Em comparação, tanto o nº 1 quanto o nº 2 parecem um pouco falsos, com uma “sensação plástica”.

Portanto, no geral, o jogador nº 3 venceu esta rodada.

Resumindo, no geral o desempenho dos quatro jogadores foi muito bom. Sob as palavras chinesas, o jogador azarão Ideograma 2.0 teve o melhor desempenho.

Quem é o Ideograma?

Em fevereiro deste ano, o Ideogram lançou a versão 1.0. Em apenas meio ano, evoluiu novamente e lançou a versão 2.0.

Na verdade, o Ideograma e o Google estão intimamente relacionados.

Fundada em agosto do ano passado, os primeiros quatro membros da equipe fundadora foramAutor do artigo Imagen sobre pesquisa gráfica vicentina do Google

CEO Mohammad Norouzi, coautor do artigo, ele recebeu a bolsa Google ML PhD enquanto estudava para doutorado em Ciência da Computação na Universidade de Toronto.

Após a formatura, ele ingressou no Google Brain e trabalhou por 7 anos, chegando ao cargo de cientista pesquisador sênior. Sua principal pesquisa foi.Gerar modelo

Além disso, ele é um membro original da equipe de tradução automática neural do Google e coautor da estrutura de aprendizagem contrastiva auto-supervisionada da equipe Hinton, SimCLR.

Diretor de tecnologia William Chan(Chen Junle), coautor do artigo, estudou na Universidade de Waterloo e na Universidade Carnegie Mellon, no Canadá.

Quando ingressou no Google em 2012, ele primeiro trabalhou em projetos de publicidade de aprendizado de máquina e depois mudou para o Google Brain para fazer pesquisas em PNL.

Cofundador Jonathan Ho, formou-se na UC Berkeley com doutorado., trabalhou na OpenAI por um ano e depois ingressou no Google.

Além de ser um contribuidor fundamental para o artigo Imagen, ele também lançou as bases para o modelo de difusão com remoção de ruído.《Modelos probabilísticos de difusão de redução de ruído》Pieter Abbeel, um dos coautores deste artigo, também é investidor na Ideogram AI.

Cofundador Chitwan Saharia, coautor do artigo, formou-se no Bombay Institute of Technology com bacharelado. Ingressou no Google em 2019, onde é o principal responsável por liderar o trabalho do modelo de difusão imagem a imagem.

As outras três pessoas da equipe fundadora,Shayaan AbdullahEle era engenheiro de aprendizado de máquina no Twitter. Ele deixou o emprego em abril do ano passado e mais tarde ingressou na Ideogram AI.

Jacó LuEngenheiro de software, trabalhou em empresas como Amazon antes de ingressar na Ideogram;Jenny LeiSou estagiário de engenharia de software e estagiei no Google antes de ingressar na Ideogram AI.

Pode-se observar que o Ideograma é composto por equipes de pesquisa de modelos de difusão de ponta e tem recebido favores de capital desde o seu início.

A rodada inicial do Ideogram foi financiada pora16zeÍndice VenturesLiderei o investimento no valor de US$ 16,5 milhões (aproximadamente RMB 120 milhões na época).

Existem também investidores individuais, como Andrej Karpathy, o guru do aprendizado por reforço Pieter Abbeel e o cofundador do GitHub, Tom Preston-Werner.

Além disso, em fevereiro deste ano, múltiplas fontes relataram que o Ideograma havianova rodada de financiamento

supostamente criado com sucessoUS$ 80 milhões(aproximadamente 5,7 bilhões de yuans) O financiamento da Série A, liderado por Andreessen Horowitz, e outros investidores participantes incluem Index Ventures, Redpoint Ventures, Pear VC e SV Angel.

Parece que o Ideograma, que tem dinheiro e tecnologia, é sem dúvida um azarão no campo do mapeamento de IA.

Role, continue rolando.