noticias

¿Es inestable el estado de Midjourney? Aparece otro caballo oscuro en el dibujo de IA, con pruebas de primera mano de 4 productos

2024-08-25

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Círculo de IA, generación de imágenes de libro abierto nuevamente.

Una serie de novedades reunidas:

21 de agosto,Ideogram lanza oficialmente la versión 2.0, afirmando tener capacidades de representación de texto más sólidas.

Así es, es el proyecto fundado en agosto del año pasado por los cuatro grandes de Google AI Painting que colectivamente dejaron sus trabajos para iniciar un negocio. Ha recibido inversiones de varios grandes de la IA.

Esta vez también el ideograma.Reto abierto a Flux, el funcionario afirmó con seguridad que su evaluación humana es significativamente mejor que la de Flux Pro.

Ya sabes, Flux fue creado por el equipo original de Stable Diffusion y recientemente se ha vuelto popular en las principales redes por generar "fotos" de charlas TED que parecen reales.

Además, hace una semana, Google lanzó oficialmenteImagen 3, en evaluaciones oficiales, se afirma que funciona mejor que DALL-E 3, Midjourney v6, Stable Diffusion 3 y otros modelos de dibujo.

Quizás debido a la estimulación (doge), Midjourney también hizo la transición y se lanzó directamente para todos los usuarios el 22 de agosto.Versión web gratuita

¡Hay algo bueno que ver ahora!

Dado que todos dicen ser fuertes, también podríamos reunir a todos en la misma mesa y tener una PK cara a cara.

¿Quién es la IA de dibujo más fuerte?

Primero invitemos a nuestros 4 concursantes (todos usando la versión web):

Concursante N°1: Ideograma 2.0.Hay 10 puntos gratis todos los días, 1 punto puede generar 4 imágenes y se puede generar un máximo de 40 imágenes por día;

Jugador nº 2: Flux.1.Black Forest ofrece oficialmente una demostración gratuita de Hugging Chat (seleccione la versión FLUX.1 Schnell);

Concursante N°3: Imagen 3.Uso gratuito e ilimitado en Image FX;

Jugador nº 4: Mitad del viaje.Durante el período de prueba gratuito, sólo tienes la oportunidad de generar un total de 25 imágenes;

Ahora entramos oficialmente en la fase de competición.

Los monos negros todos volcados

Primero, para probar estas IA extranjeras.¿Entiendes las palabras clave chinas?, aprovechemos también la popularidad de los mejores monos negros de la actualidad.

Aviso: El personaje del juego es un mono, que lleva una armadura, una corona dorada con plumas de fénix en la cabeza y sostiene un aro dorado en la mano, de pie sobre un acantilado.

Como era de esperar, ocurrió un accidente...

Creo que a primera vista todos se sintieron atraídos por la gran cruz roja en el número 3. Así es, debajo de la misma palabra, solo está Imagen 3Solicitud de compilación denegada

Cuando vi esto, mi primera reacción fue si nuestras palabras inmediatas activaban la protección de los derechos de autor. Así que primero eliminé el "personaje del juego" en la palabra del mensaje, pero el resultado fue que no se pudo generar el recordatorio.

¿Es porque Google Imagen 3 no es compatible con el idioma chino? Así que cambié aleatoriamente la palabra clave por una más simple, y esta vez había una imagen.

Es solo que el resultado fue un gran error, se cambiaron varias palabras en chino y, al final, todas eran imágenes de textura irrelevantes.

pareceDe hecho, Google Imagen 3 no admite palabras en chino

Después de que el No. 3 fallara en la lista, mirando a los demás, solo quedaronEl ideograma 2.0 número 1 funciona mejor

El número 2 todavía puede ver la sombra de los cómics chinos, pero el número 4 Midjourney se ha dejado llevar por completo ~ (el tema principal no tiene ninguna relación)

Finalmente, me gustaría elogiar a Ideogram 2.0 por alcanzar con precisión todos los elementos clave.

Aunque no es lo que quiero en mi corazón (quiero Mitología Negra), realmente no hay nada de malo en restaurar las palabras clave.

¿Es una persona real o una IA? Tonto, no puedo notar la diferencia.

A continuación, ingrese a la zona de confort de cada jugador——Generación de retratos

En aquellos días, Midjourney se hizo popular en Internet con una foto de una pareja en la azotea, ahora, Flux es incluso popular en Internet con una serie de imágenes de discursos TED...

¿Quién es mejor? La respuesta se revelará pronto.

Indicación: Un joven de cabello castaño rojizo, con una camisa a cuadros en verde azulado y crema, captado con un lente de 50 mm para lograr un aspecto vintage. Colores intensos, enfoque nítido y un toque de encanto retro.

Un joven de cabello castaño rojizo, vestido con una camisa a cuadros verde azulado y crema, capturado con una lente de 50 mm en estilo retro. Los colores son ricos y el enfoque es nítido con un toque de encanto vintage.

Mirando primero los números 2 y 4, ¡es obvio que Midjourney ha ganado!

Mirando los detalles, No. 2Flux.1 está ligeramente apagadoHay dos colores más de ropa, lo que destaca especialmente entre las camisas a cuadros azules y verdes.

Además, también descubrimos la Imagen 3 al principio.Un pequeño punto culminante único: Circule la palabra clave antes de que comience la generación.

Con el trabajo que ha realizado, apenas podemos probar el rendimiento de varios jugadores.elementos clave(Camisa de cuadros azul verdoso, lente de 50 mm, etc.).

Se puede observar que en general varios jugadores tuvieron un buen desempeño (excepto el N° 2), con un alto grado de recuperación y todos mirando a la cámara.

Además, si no los hubiera generado yo mismo utilizando IA, no podría distinguirlos de las personas reales a la vez. (Avergonzado)

Finalmente, me gustaría decir en voz baja que el concursante número 4, Midjourney, tiene la mejor apariencia.

Gran dificultad: texto para mostrar imágenes

Después de engañar a todos con éxito, es hora de dejar que la IA sufra un poco——

Agregar texto a las imágenes

Este asunto siempre ha sido un problema de larga data y también se ha convertido en uno de los estándares para probar el nivel de dibujo de IA.

Sin más preámbulos, dejemos que algunos concursantes hagan un cartel exquisito. Todos los lectores, por favor traigan su propio papel como padre del Partido A.

Aviso: Un letrero de latón horizontal que dice 'Temporada festiva' en una escritura elegante, rodeado de pino y acebo sobre un fondo de madera oscura, con un enfoque de primer plano en las letras doradas.

Un letrero horizontal de latón que dice "Temporada festiva" en una escritura elegante está rodeado de ramas de pino y acebo sobre un fondo de madera oscura, con un primer plano que se centra en las letras doradas.

Después de un vistazo rápido, ¿son todos bastante buenos? ¿Parece que han restaurado las palabras clave en un alto grado?

Sin embargo, una vez que se revelan los agudos ojos del padre del Partido A, el Número 2 no puede ocultarlos.

Presta atención, número 2.Flux.1 esquinas cortadas, a la palabra "Temporada" le falta la letra "S".

Pero a excepción del número 2, los demás son bastante buenos. Parece que a varias empresas de inteligencia artificial les está yendo bien.Función de representación de textoSe han hecho todos los esfuerzos.

Entonces, el siguiente paso es que cada uno tenga sus propias preferencias en cuanto a rábanos y verduras, y cada uno elija según sus preferencias personales. (Votado personalmente por Midjourney)

Por cierto, No. 1 Ideogram ha promovido especialmente la función de "representación de texto" en esta actualización de modelo. Quizás desee probarla más.

Consulte McDonald's, el objetivo de la publicidad con IA

Recientemente, McDonald's contrató a 11 bellezas de IA para destacar sus papas fritas, lo que las hizo muy populares~

De hecho, el principio es relativamente simple. No es más que usar IA para generar imágenes de diferentes personajes promocionando papas fritas y luego unirlas en un video.

Inesperadamente, el efecto fue sorprendente. Sólo en Twitter, el vídeo en cuestión recibió casi 10 millones de visitas.

Después de dominar el código de riqueza, comenzamos a trabajar oficialmente como chinos.La IA ayuda a los agricultoresTienes que caminar arriba y abajo~

Aviso: Con el telón de fondo de una metrópolis de estilo ciberpunk, una niña promociona productos agrícolas orgánicos en sus manos.

En un entorno urbano de estilo cyberpunk, una niña promociona los productos orgánicos que tiene en sus manos.

Muy bien, el jugador número 3 volvió a "fallar". Sin embargo, esta ola es realmente desconcertante. Las palabras clave no están en chino ni hay nada obviamente prohibido...

Después de que se eliminó el número 3, el concursante número 1, Ideograma 2.0, trajo la más amplia variedad de productos, incluidos repollo chino, tomates, repollo morado, etc.

Y es el único que escribiósigno de textoVine aquí para promover los alimentos orgánicos y puedo ver que están trabajando muy duro ~

Además, si miras de cerca, puedes ver que solo el No. 1 está haciendo todo lo posible por imitar a la persona real, mientras que el No. 2 y el No. 4 son completamentesimio de dos espinas

u1s1, si te refieres al estilo publicitario de Maimai, esta generación de corto plazo no logró el efecto deseado. (Ojalá más cerca de la realidad)

Sin embargo, afortunadamente, estas herramientas de inteligencia artificial están actualmente disponibles de forma gratuita. No es imposible probarlas varias veces. La atención se centra todavía en la metodología. 🐶

No se vaya con prisa, en realidad existe una forma más confiable de ganar dinero——

Utilice IA para controlar fácilmente las tomas de estudionegocios pósters, ¿no sería bueno ahorrar dinero en fotógrafos, lugares y postproducción?

Un elegante tubo de lápiz labial brilla sobre un fondo sofisticado, resaltando su rica pigmentación y su deslizamiento suave. Evoca lujo con un enfoque nítido y un toque de brillo.

Un elegante tubo de lápiz labial brilla sobre un fondo sofisticado, resaltando el color intenso y la aplicación suave. Evoca una sensación de lujo con un enfoque nítido y un toque de brillo.

Probemos a todos, si tuvieras que elegir un lápiz labial para una mujer que te rodea, ¿cuál elegirías? (Se acerca la prueba de la muerte)

Jeje, ¿alguien ha elegido el número 4?

Aunque el color gris del No. 4 Midjourney parece de muy alta gama, el color negro puede ser un poco específico. (Elige con cuidado)

Aparte de esto, los siguientes mejores resultados sonImagen 3, la tela de terciopelo debajo resalta una sensación de lujo y, lo más importante, la textura del lápiz labial es muy real.

En comparación, tanto el número 1 como el número 2 parecen un poco falsos, con una "sensación de plástico".

Por lo tanto, en general, el jugador número 3 ganó esta ronda.

En resumen, en general el desempeño de los cuatro jugadores fue muy bueno. Según las palabras clave chinas, el reproductor Dark Horse Ideogram 2.0 tuvo el mejor desempeño.

¿Quién es Ideograma?

En febrero de este año, Ideogram lanzó la versión 1.0. En apenas medio año, volvió a evolucionar y lanzó la versión 2.0.

De hecho, Ideogram y Google están estrechamente relacionados.

Fundado en agosto del año pasado, los primeros cuatro miembros del equipo fundador fueronAutor del artículo de Imagen sobre la investigación de gráficos vicencianos en Google

Director ejecutivo Mohammad Norouzi, coautor del artículo, recibió la beca de doctorado Google ML mientras estudiaba un doctorado en Ciencias de la Computación en la Universidad de Toronto.

Después de graduarse, se unió a Google Brain y trabajó durante 7 años, ascendiendo al puesto de investigador científico senior. Su principal investigación fue.Generar modelo

Además, es miembro original del equipo de traducción automática neuronal de Google y coautor del marco de aprendizaje contrastivo autosupervisado SimCLR del equipo de Hinton.

Director de tecnología William Chan(Chen Junle), coautor del artículo, estudió en la Universidad de Waterloo y la Universidad Carnegie Mellon en Canadá.

Cuando se unió a Google en 2012, primero trabajó en proyectos publicitarios de aprendizaje automático y luego se mudó a Google Brain para realizar investigaciones sobre PNL.

Cofundador Jonathan Ho, se graduó con un doctorado en UC Berkeley, trabajó en OpenAI durante un año y luego se unió a Google.

Además de ser un colaborador principal del artículo de Imagen, también sentó las bases para el modelo de difusión de eliminación de ruido.《Modelos probabilísticos de difusión para eliminar el ruido》Pieter Abbeel, uno de los coautores de este artículo, también es inversor en Ideogram AI.

Cofundador Chitwan Saharia, coautor del artículo, se graduó del Instituto de Tecnología de Bombay con una licenciatura. Se unió a Google en 2019, donde es el principal responsable de liderar el trabajo del modelo de difusión de imagen a imagen.

Las otras tres personas del equipo fundador,Shayaan AbdullahEra ingeniero de aprendizaje automático en Twitter. Dejó su trabajo en abril del año pasado y luego se unió a Ideogram AI.

Jacob LuIngeniero de software, trabajó en empresas como Amazon antes de unirse a Ideogram;Jenny LeiSoy pasante de ingeniería de software y realicé una pasantía en Google antes de unirme a Ideogram AI.

Se puede ver que Ideogram está compuesto por equipos de investigación de modelos de difusión de primer nivel y ha recibido favores capitales desde sus inicios.

La ronda inicial de Ideogram fue financiada pora16zyEmpresas de índiceLideró la inversión con un monto de 16,5 millones de dólares estadounidenses (aproximadamente 120 millones de RMB en ese momento).

También hay inversores individuales como Andrej Karpathy, el gurú del aprendizaje por refuerzo Pieter Abbeel y el cofundador de GitHub, Tom Preston-Werner.

Además, en febrero de este año, múltiples fuentes informaron que Ideogram habíanueva ronda de financiación

supuestamente levantado con éxito80 millones de dólares(aproximadamente 5,7 mil millones de yuanes) Financiamiento Serie A, liderado por Andreessen Horowitz, y otros inversionistas participantes incluyen Index Ventures, Redpoint Ventures, Pear VC y SV Angel.

Parece que Ideogram, que tiene dinero y tecnología, es sin duda un caballo oscuro en el campo del mapeo de IA.

Rueda, sigue rodando.