noticias

Todos los miembros abandonaron su antiguo club, Stable Diffusion comenzó su negocio y derrotó a MJ v6 de inmediato.

2024-08-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Informe del corazón de la máquina

Editor: Du Wei, Jiaqi

El campo de la generación de imágenes y videos con IA ha agregado otro jugador poderoso.

¿Recuerda a Robin Rombach, un científico investigador que renunció a la startup de inteligencia artificial Stability AI a fines de marzo de este año? Como uno de los dos autores principales que desarrollaron el modelo de gráfico Vincent Difusión estable, se unió a Stability AI en 2022.



Ahora, casi cinco meses después de dejar Stability AI, Robin Rombach tuiteó la buena noticia de comenzar su propio negocio.

Estableció "Black Forest Labs" para promover modelos SOTA de aprendizaje profundo generativo de alta calidad para imágenes y vídeos y ponerlos a disposición del mayor número de personas posible.



Los miembros del equipo están compuestos por destacados investigadores e ingenieros de IA. Su trabajo representativo anterior incluye VQGAN y Difusión Latente, modelos de Difusión Estable en el campo de la generación de imágenes y videos (incluidos Difusión Estable XL, Difusión de Video Estable y Transformadores de Flujo Rectificado) y Difusión Adversaria. Destilación para síntesis de imágenes ultrarrápida en tiempo real.

Vale la pena señalar que, además de Robin Rombach, Stable Diffusion cuenta con otros tres autores que se han convertido en miembros fundadores del equipo, entre ellos Andreas Blattmann, Dominik Lorenz y Patrick Esser. Ambos dejaron Stability AI a principios de este año, y algunos especulan que lo hicieron para iniciar sus propios negocios.



Actualmente, los laboratorios han completado una ronda de financiación inicial de 31 millones de dólares, liderada por Andreessen Horowitz. Otros inversores incluyen a los inversores ángeles Brendan Iribe, Michael Ovitz, Garry Tan, Timo Aila, Vladlen Koltun y algunos conocidos expertos en investigación y emprendimiento de IA. Además, también recibió inversiones de seguimiento de General Catalyst y MätchVC.

Los laboratorios también han creado un consejo asesor, entre cuyos miembros se encuentran Michael Ovitz, un magnate de la tecnología con amplia experiencia en la industria de la creación de contenidos, y el profesor Matthias Bethge, un pionero en la transferencia de estilos neuronales y uno de los principales expertos en investigación de IA abierta en Europa.

Por supuesto, Black Forest Labs ha lanzado su primera serie "FLUX.1", que incluye las siguientes tres variantes.



La primera variante esFLUX.1 [profesional] Es un nuevo modelo de diagrama SOTA Vincent con detalles de imagen extremadamente ricos, sólidas capacidades de cumplimiento rápido y diversos estilos. Actualmente disponible a través de API.

Dirección API: https://docs.bfl.ml/



El segundo esFLUX.1 [desarrollo] , que es una variante no comercial de peso abierto de FLUX.1 [pro] y se destila directamente de este último. Este modelo supera a otros modelos de imagen como Midjourney y Stable Diffusion 3. El código de inferencia y los pesos se han puesto en GitHub. La siguiente imagen es una comparación con los modelos de imagen de la competencia.

Dirección de GitHub: https://github.com/black-forest-labs/flux



El tercero es de código abierto.FLUX.1 [rápido] , es un modelo de 4 pasos súper eficiente que sigue el protocolo Apache 2.0. Este modelo está muy cerca de [dev] y [pro] en rendimiento y se puede usar en Hugging Face.

Abrazando la cara https://huggingface.co/black-forest-labs/FLUX.1-schnell





Mientras tanto, Black Forest Labs empieza a promocionarse.



El siguiente paso es lanzar el modelo de video SOTA Vincent que está disponible para todos, ¡y todos pueden esperarlo!



Éxito instantáneo: llega la serie de modelos de figuras de Vincent "FLUX.1"

Los tres modelos lanzados por Black Forest Labs esta vez utilizan una arquitectura híbrida de Transformer de difusión paralela y multimodal. A diferencia de otras empresas que dividen una serie de modelos en "copa mediana", "copa grande" y "copa extra grande" según el número de parámetros, los miembros de la familia FLUX.1 se han ampliado uniformemente a una escala enorme de 12 mil millones de parámetros.



El equipo de investigación adoptó el marco Flow Matching para actualizar el modelo de difusión SOTA anterior. De los comentarios en el blog oficial se puede inferir que el equipo de investigación siguió el método Rectified flow+Transformer propuesto mientras aún trabajaba en Stability AI (en marzo de este año).



Enlace del artículo: https://arxiv.org/pdf/2403.03206.pdf

También introdujeron capas de atención paralelas y de posición rotacional. Estos métodos mejoran efectivamente el rendimiento del modelo en la generación de imágenes, y la velocidad de generación de imágenes en dispositivos de hardware también se ha vuelto más rápida.

Black Forest Labs no reveló la tecnología detallada del modelo esta vez, pero pronto se publicará un informe técnico más detallado.

Los tres modelos establecen nuevos estándares en sus respectivos campos. Ya sea por la belleza de las imágenes generadas, qué tan bien encajan las imágenes en las indicaciones de texto, la variabilidad del tamaño/relación de aspecto o la variedad de formatos de salida, FLUX.1 [pro] y FLUX.1 [dev] van más allá de un rango de modelos populares de generación de imágenes, como Midjourney v6.0, DALL・E 3 (HD) y SD3-Ultra.

FLUX.1 [schnell] es el modelo de pocos pasos más avanzado hasta la fecha, superando no sólo a sus competidores sino también a potentes modelos no destilados como Midjourney v6.0 y DALL・E 3 (HD) Model.

El modelo está específicamente ajustado para conservar toda la diversidad de resultados de la etapa de preentrenamiento. Los modelos de la serie FLUX.1 también dejan mucho margen de mejora en comparación con la tecnología más moderna actual.



Todos los modelos de la serie FLUX.1 admiten una variedad de relaciones de aspecto y resoluciones, de 0,1 a 2 megapíxeles.



Algunos internautas que actuaron rápidamente ya lo han probado. Parece que lo "más fuerte" que Black Forest Labs ha enfatizado repetidamente no es solo la autopromoción.

Palabras simples pueden crear tal efecto. Si observas cuidadosamente el patrón de la estera de alpaca, no hay distorsión ni deformación.



Palabra inmediata: Un emú esmeralda montado sobre una llama blanca.

Sin decir que se trata de una imagen generada por IA, es difícil saber si se trata de una fotografía tomada por un fotógrafo.



Palabra clave: Un caballo juega con dos caimanes en el río.

Las imágenes que contienen texto también se pueden manejar fácilmente y la profundidad de campo también se procesa para que coincida con la sensación real de la lente.



Entre los tres modelos, el FLUX.1 [schnell] con un rendimiento ligeramente inferior también es rápido y potente de usar. Algunos internautas compartieron su experiencia al ejecutarlo en una Mac y no pudieron evitar suspirar, realmente vale la pena.



Los internautas que no sabían mucho sobre los “quejas” entre los autores de Stable Diffusion y Stability AI se lamentaron: un modelo gráfico vicenciano apareció de la nada y era simplemente terriblemente poderoso.



Con respecto a la historia del autor de Stable Diffusion y su antigua empresa Stability AI, puede leer informes anteriores de Machine Heart: cuando estaba valorado en 100 millones de dólares, los equipos detrás de Stable Diffusion comenzaron a pelear entre sí sobre quién es el verdadero funcionario. ?

Además de los tres modelos vicencianos más potentes, Black Forest Labs también frena su "gran movimiento". Con la capacidad de generar modelos de generación de imágenes tan potentes, Black Forest Labs ha sentado una base sólida para los modelos de generación de video. Como predicen, estos científicos destacados en visión por computadora están avanzando hacia la tecnología de generación de video más avanzada disponible para todos.

Blog de la empresa: https://blackforestlabs.ai/announcements/