La puesta a punto de Flux ha arrasado en todo Internet, ¡con chicos extranjeros formando un equipo de héroes de Marvel!

2024-08-19

Nuevo informe de sabiduría

Editor: Departamento Editorial

[Introducción a la Nueva Sabiduría]¡Ha nacido el rey del mapeo de IA que está arrasando en el mundo del código abierto! Medio mes después de su lanzamiento, Flux se ha convertido en una alternativa favorita a Midjourney. Desarrolladores de todos los ámbitos de la vida comenzaron a perfeccionar LoRA con sus propias fotografías, lo que permitió a una persona dominar múltiples estilos.

Después de Midjourney, nunca había visto gente tan loca por una aplicación de imágenes de IA.

La aparición de Flux significa que la generación de imágenes de IA ha entrado en una nueva etapa.

El propio Musk dijo que ya no podía distinguir la verdad de la mentira.

Primero, una fotografía realista de un orador de TED arrasó en Internet. Más tarde, el Grok 2, que integraba el modelo Flux, rompió las restricciones de la barandilla y se volvió loco entre los internautas.

Recientemente, los desarrolladores de Flux también han comenzado a perfeccionar sus propios modelos LoRA.

HuggingFace Lianchuang exclamó que Flux ha conquistado por completo el mundo de la IA de código abierto. Nunca había visto un modelo con tantos modelos derivados/plataformas en línea/demostraciones ocupando la lista caliente al mismo tiempo.

El desarrollador que lo perfeccionó dijo: "Flux+LoRA subvertirá el mercado generativo de la IA. Puedes estar en cualquier lugar, usar cualquier cosa, usar la ropa que quieras y generar diferentes versiones de ti mismo".

Por ejemplo, conviértete en Superman.

Toma la espada retráctil de luces y sombras y transfórmate en un Caballero Jedi. Que la Fuerza te acompañe.

No solo eso, fotos de esculturas de hielo, consolas de juegos Switch, orejas de elfo, desfiles de moda, etc., son solo palabras.

Desliza hacia la izquierda o hacia la derecha para ver

Ajustar su propio LoRA se ha convertido ahora en un nuevo juguete para muchos desarrolladores.

No, toda la red está inundada de Flux+LoRA.

Una persona puede formar los "Vengadores"

Rowan Cheung, el fundador de Rundown AI, usó sus propias fotos como datos, usó Flux para entrenar un modelo LoRA y luego lo vinculó con Runway para hacerlo moverse.

Como se muestra a continuación, se genera una imagen similar a la de un orador TED.

Después de hacer el vídeo, la persona de la foto realmente cobró vida y parecía un orador. El único inconveniente es que solo hay 2-3 dedos desde la mano derecha hasta la parte posterior.

El otro se generó a sí mismo salvando al mundo como Superman.

Con la animación, finalmente me convertí en un héroe de Marvel.

Regenera en una foto vistiendo ropa de moda y caminando por la pasarela.

El público de ambos lados aplaudió con entusiasmo y se consideró una experiencia de pasarela en el escenario T.

Además, Rowan Cheung también ha generado diferentes estilos de sí mismo, que son consistentes con la escena y no tienen ningún sentido de desobediencia.

Desliza hacia la izquierda o hacia la derecha para ver

Él cree que, aunque los gráficos generados por IA todavía no pueden reemplazar películas/comerciales completos, ya tienen muchos usos importantes, especialmente para los creadores de contenido.

Estas imágenes de IA se utilizan, por ejemplo, para producir avances e imágenes complementarias de noticias, así como material complementario (B-roll) en cortometrajes.

Después de leerlo, la internauta Min Choi dijo que podría formar "Avengers".

El ex CTO de Intel también perfeccionó su propio modelo LoRA en el A100, lo que le costó 7 dólares estadounidenses (unos 50 yuanes) en 75 minutos.

Desliza hacia la izquierda o hacia la derecha para ver

También hay desarrolladores que simplemente se convirtieron en películas de terror.

Desliza hacia la izquierda o hacia la derecha para ver

No puedo distinguir entre la IA y la realidad

La más popular es la versión perfeccionada del "surrealismo", que hace que la gente se vuelva cada vez más confusa acerca de la frontera entre la imaginación y la realidad.

¿Es una foto real o una persona dibujada por IA?

Después de entrenar con LoRA en Flux-Dev, se han logrado avances increíbles en términos de complejidad y realismo de la escena.

Cualquier estilo se puede perfeccionar

Además, también están surgiendo diferentes estilos de ajuste.

estilo de píxel

Los desarrolladores utilizaron el estilo del legendario ZX Spectrum como ejemplo para ajustar la generación de imágenes similares a píxeles LoRA.

En la imagen generada a continuación, hay imágenes como Dragon Ball Sun Wukong, Marvel Iron Man, Chuan Jianguo (aparentemente), etc.

Desliza hacia la izquierda o hacia la derecha para ver

garabatos animados

El diseñador de productos de IA generativa de PS, Davis Brown, ajustó un modelo de media ilustración basado en Flux.

Las imágenes que genera son en parte del estilo de fotografías reales y en parte del estilo de graffiti animado.

Antes de cada dibujo, solo necesita agregar: En el estilo de TOK al comienzo del mensaje.

Luego, describa en detalle el efecto deseado y la película podrá producirse inmediatamente.

En el futuro, siento que no tendré que usar PS, solo puedo usar AI para generar imágenes.

Indicación: Al estilo de TOK, una pose de acción dramática vanguardista editorial fotográfica de una mujer de pelo corto azul con gafas de sol redondas y extravagantes de los años 70, bajándose las gafas y mirando hacia delante, en Tokio con grandes estructuras de mármol y árboles bonsái al atardecer con una chaqueta ilustrada vibrante rodeada de ilustraciones de flores, humo, llamas, helado, destellos, rock and roll.

Indicación: Al estilo de TOK, una pose de acción dramática de editorial fotográfica de una persona con ojos penetrantes, tatuajes en la cara, con un sombrero de pescador creativo, de pie en Tokio con grandes estructuras de mármol y árboles de color blanco púrpura en una cancha de baloncesto, con una chaqueta vintage acolchada de ropa de calle ilustrada vibrante, camisa negra, volcán en el fondo, rodeado de ilustraciones de humo, llamas y flores, niebla, signos de exclamación, líneas que se disparan hacia afuera, personajes minions, mariposas.

Hay otras fotos estilo graffiti.

Desliza hacia la izquierda o hacia la derecha para ver

Jiugongge

La plataforma de conjunto de datos de código abierto LAION utilizó el modelo Flux para entrenar un modelo que puede generar fotografías de cuadrícula de nueve cuadrados de 3x3 de sí mismo desde diferentes ángulos.

A partir de ahora bastará con un selfie.

Desliza hacia la izquierda o hacia la derecha para ver

diferentes edades

La apariencia de la vida de una persona se puede ver a través de Flux+LoRA.

Desliza hacia la izquierda o hacia la derecha para ver

Otro ejemplo:

Desliza hacia la izquierda o hacia la derecha para ver

Súper jugabilidad

El protagonista de hoy, FLUX.1, utiliza una nueva tecnología de "coincidencia de flujo".

Mientras que los modelos de difusión anteriores creaban una imagen eliminando progresivamente el ruido a partir de un punto de partida aleatorio, la coincidencia de flujo adopta un enfoque más directo, aprendiendo los cambios precisos necesarios para transformar el ruido en una imagen real.

Esta diferencia de enfoque da como resultado una estética única y grandes ventajas en términos de velocidad y control.

Texto: La mayoría de ellos se pueden obtener.

Uno de los desafíos de la generación de texto a imagen es convertir con precisión el texto en representaciones visuales. FLUX.1 maneja esto bastante bien, incluso en escenas complejas como memes.

inmediato:

Este es un buen meme de perro bajo el agua Texto: 'El cambio climático está bien' Este es un meme de "buen perro" bajo el agua. Texto: "El cambio climático no es un gran problema"

inmediato:

Un meme de un actor famoso haciendo una mueca con el texto "Cuando olvides tus líneas" en una fuente peculiar Un meme de un actor famoso haciendo una mueca con el texto "Cuando olvides tus líneas" en una fuente peculiar

La luz y la textura son buenas.

FLUX.1 tiene un profundo conocimiento de la luz, las sombras y las texturas para producir imágenes de alta calidad de manera constante.

inmediato:

Una imagen detallada de un jardín donde las flores están hechas de vidrio delicado, reflejando maravillosamente la luz del sol Una imagen detallada de un jardín donde las flores están hechas de vidrio delicado, reflejando maravillosamente la luz del sol

En esta imagen, la atención se centra no sólo en la textura del vidrio, sino también en cómo la luz se refracta y transmite a través de los pétalos, creando un efecto luminoso.

inmediato:

Plumas de búho fusionándose con hojas de otoño en el viento Plumas de búho fusionándose con hojas de otoño en el viento

Estilo artístico: más que imitación

FLUX.1 parece haber dominado los principios detrás de varios estilos artísticos, haciendo posibles reinterpretaciones creativas.

inmediato:

acuarela de la famosa pintura de olas acuarela de la famosa pintura de olas

Esta versión en "acuarela" de "La gran ola de Kanagawa" no sólo implica que las ondas icónicas eran parte de los datos de entrenamiento del modelo, sino que también resalta cómo las técnicas de "flujo" se aproximan al movimiento de la pintura a través del agua, el papel y la tinta.

Composición: hacer que la escena tenga significado.

FLUX.1 se destaca en la construcción de escenas complejas, colocando objetos y personajes de una manera realista y visualmente atractiva.

inmediato:

Una imagen realista de una biblioteca encantada donde los libros flotan en el aire y los estantes están hechos de raíces antiguas y retorcidas. Una imagen realista de una biblioteca encantada donde los libros flotan en el aire y los estantes están hechos de raíces antiguas y retorcidas.

"Flow": un nuevo lenguaje visual

La tecnología de coincidencia de flujo utilizada en FLUX.1 le da a la imagen una sensación única de movimiento orgánico y fluidez, como si los propios píxeles fluyeran.

inmediato:

Perro con patrones de pelaje arremolinados al estilo de Van Gogh.

Siempre hay una herramienta que puede ayudarte a hacerlo.

Podemos resumir el proceso de generación de imágenes como: tomar algunos píxeles de entrada, alejarlos ligeramente del ruido, hacia el patrón creado por la entrada de texto, y repetir este proceso hasta llegar a un número determinado de pasos.

El proceso de ajuste toma cada par de imagen/anotación del conjunto de datos y actualiza ligeramente su mapeo interno.

Puedes enseñarle a un modelo cualquier cosa de esta manera, siempre que pueda representarse mediante pares de imagen y título: personaje, escenario, medio, estilo, género.

Izquierda: generado usando el modelo FLUX.1 original; derecha: generado en el modelo fofr/flux-bad-70s-food usando las mismas sugerencias y semillas;

Durante el entrenamiento, el modelo aprenderá cómo asociar estos conceptos con cadenas de texto específicas. En el mensaje, debe agregar esta cadena para activar esta asociación.

Por ejemplo, desea perfeccionar un modelo de "superhéroe al estilo cómic".

En primer lugar, es necesario recopilar una gran cantidad de imágenes sobre los personajes como un conjunto de datos, que incluyen, entre otros: diferentes escenas, vestuario, iluminación y tal vez incluso diferentes estilos artísticos.

Luego, elija una palabra o frase corta y poco común que sirva como desencadenante: algo único que no entre en conflicto con otros conceptos o ajustes. Puedes elegir términos como "mala comida de los 70" o "JELLOMOLD".

Después del entrenamiento, simplemente dé un mensaje que contenga una palabra desencadenante, como "Escena de mala comida de los años 70 en una fiesta en San Francisco", y el modelo recurrirá a los conceptos específicos que agregó durante el ajuste.

Es así de simple.

Después de comprender el principio, podemos elegir cualquier herramienta para ajustar el modelo.

Izquierda: generado usando el modelo FLUX.1 original; derecha: generado en el modelo fofr/flux-bad-70s-food usando las mismas sugerencias y semillas;

Por ejemplo, un tipo llamado Matt Wolfe, después de ver la generación genial de arriba, sintió curiosidad y lo probó.

Como resultado, anuló...

Las imágenes de IA creadas pueden considerarse la diferencia entre la exposición de un comprador y la exposición de un vendedor.

Esto es lo que generó——

Esto es de otra persona.

Las dos imágenes son comparables. La diferencia radica en si se utiliza el ajuste fino de LoRA o no.

El hermano pequeño que se sintió estimulado inmediatamente fue a investigar un poco. Se sorprendió gratamente al descubrir que el modelo LoRA es muy pequeño, de sólo 2 a 500 MB, y se puede combinar fácilmente con los modelos existentes.

Lo que es aún más sorprendente es que el modelo de IA puede mejorar la calidad de la imagen, producir un estilo único o generar personajes especiales, como Mario o Bob Esponja, sin requerir potencia informática adicional ni un reentrenamiento integral.

Desafortunadamente, en Glif, que uso tan bien, LoRA no se puede usar en Flux.

Descubrió que una forma de utilizar Flux es utilizar ComfyUI.

Creo que mucha gente está familiarizada con esta imagen.

Alternativamente, puede utilizar plataformas como Replicate, HuggingFace Spaces o Fal AI.

Después de probarlo en la plataforma Fal, descubrí que cuesta 0,035 dólares por megapíxel. Por lo tanto, puedes ejecutar el modelo 29 veces por sólo 1 dólar, lo cual es bastante rentable.

Aquí están disponibles FLUX.1 dev, Flux Realism LoRA, FLUX.1 pro, etc.

Sin decir una palabra, el hermano pequeño eligió Flux Realism LoRA.

Después de una depuración cuidadosa, configuré el tamaño del paso de inferencia en 28 y CFG en 2.

¡Las imágenes resultantes son increíbles!

Si hay algún defecto es que la iluminación de las arrugas de la frente aún no es natural.

Luego, el hermano pequeño importó con entusiasmo la imagen a Gen-3 Alpha. Según el mensaje que ingresó, Gen-3 Alpha generó un video.

Excepto en cierto momento, el micrófono en mi mano de repente "flotó" y no hubo nada malo con el resto del video.

El tipo lo intentó de nuevo y generó un segundo vídeo.

Esta vez, el micrófono parecía demasiado quieto, como congelado en su lugar.

Además, el hermano pequeño también se sumó a la tendencia de cambiarse en todo Internet, generando una serie de divertidísimas fotografías.

Desliza hacia la izquierda o hacia la derecha para ver

Finalmente, usé Gen-3 Alpha para convertirlo en un video, permitiéndome a mí y a Deadpool caminar en la misma escena de la película.

Referencias:

https://x.com/dr_cintas/status/1824480995317350401

https://x.com/Gorden_Sun/status/1824843049421484309

https://replicate.com/blog/fine-tune-flux

https://x.com/laion_ai/status/1824814210758459548

https://www.youtube.com/watch?v=_rjto4ix3rA

https://www.youtube.com/watch?v=rDu481JFwqM

noticias

La puesta a punto de Flux ha arrasado en todo Internet, ¡con chicos extranjeros formando un equipo de héroes de Marvel!

Introducción

Mi información de contacto