¡El modelo gráfico Wensheng de código abierto más poderoso cambió de manos de la noche a la mañana! Creado por el equipo original de SD, se lanzará el modelo de generación de video SOTA

2024-08-02

Cosas inteligentes (cuenta pública:zhidxcom）
autorvainilla
editarLi Shui Qing

¡El modelo gráfico Wensheng de código abierto más poderoso cambió de manos de la noche a la mañana!

Zhidongxi informó el 2 de agosto que ayer por la noche, el señor supremo del modelo gráfico Wensheng de código abiertoDifusión estableEl equipo original anunció el lanzamiento de un nuevo modelo de generación de imágenes.FLUJO.1。

FLUX.1 contieneEdición profesional, edición para desarrolladores, edición ExpressDe los tres modelos, los dos primeros superaron a los modelos convencionales como SD3-Ultra, y el FLUX.1 [schnell] más pequeño también superó a modelos más grandes como Midjourney v6.0 y DALL·E 3.

▲ Puntuación ELO FLUX.1 en comparación con los modelos convencionales

FLUJO.1 pulg.Generación de texto, seguimiento de instrucciones complejas.yGenerado a mano tiene ventajas. El siguiente es un ejemplo de imágenes generadas por su versión profesional más poderosa, el modelo FLUX.1[pro]. Puede ver que incluso cuando se generan grandes secciones de texto y múltiples caracteres, no hay errores en detalles como caracteres y manos humanas. .

▲ Ejemplo de imagen generada por FLUX.1[pro]

FLUX.1 ya está disponible en la plataforma de código abierto Replicate, aquí están mis consejos para usarlo”El pastel de la Selva Negra más pequeño del mundo, del tamaño de un dedo, rodeado de árboles de la Selva Negra”, las imágenes generadas en los tres modelos tomaron respectivamente17,5 s, 12,2 s, 1,5 s。

▲ Comparación de tres generaciones de modelos

FLUX.1 también abre una API (Interfaz de programación de aplicaciones) y su precio se basa en la cantidad de imágenes. Los precios de los tres modelos son por imagen a su vez.0,055 dólares, 0,03 dólares, 0,003 dólares(Aproximadamente 0,4, 0,22 y 0,022 yuanes RMB).

La empresa detrás de FLUX.1 se llamaLaboratorios de la Selva Negra (Laboratorio de la Selva Negra), fundado por el equipo original de Stable Diffusion y varios ex investigadores de Stability AI.Al igual que Stability AI, Black Forest se ha comprometido a desarrollar modelos multimodales de alta calidad y abrirlos.$31 millones(aproximadamente 225 millones de RMB) en financiación de ronda inicial.

Black Forest también adelanta que se lanzará prontoModelo de vídeo SOTA (Nº 1 en indicadores técnicos actuales) . A juzgar por la demostración que lanzó, tanto la suavidad, la estabilidad como la simulación física han alcanzado el primer nivel. La compañía puede convertirse en un caballo oscuro en el campo de la generación de videos.

▲ Vista previa del modelo de generación de video

Dirección de prueba de tres modelos:

https://replicate.com/black-forest-labs/flux-pro

https://replicate.com/black-forest-labs/flux-dev

https://replicate.com/black-forest-labs/flux-schnell

1. Bueno para generar texto y manos humanas, se pueden generar tres modelos a escala en segundos

FLUX.1 tiene un rendimiento superior en términos de calidad visual, detalles de imagen y diversidad de salida. Tiene tres características principales:Generación de texto, composición compleja, dibujo a mano humana.。

La generación de texto es muy importante en la generación de imágenes y videos, y muchos modelos tienden a confundir letras que parecen similares. FLUX.1 puede manejar palabras complicadas con letras repetidas, como generar unPastel Schnell Flux de la Selva Negra：

▲ Pastel Schnell Flux de la Selva Negra

Cuando se trata de composición, el FLUX.1 destaca por seguir instrucciones complejas, como dónde deberían estar las cosas en la imagen. Por ejemplo, FLUX.1 interpreta perfectamente este mensaje: Tres magos mágicos están parados sobre una mesa amarilla, cada uno con un cartel. A la izquierda, un mago con túnica negra sostiene un cartel que dice "AI"; en el medio, una bruja con túnica roja sostiene un cartel que dice "IS"; a la derecha, un mago con túnica azul sostiene un cartel que dice "IS"; "AI" Un cartel que dice "cool".

▲Composición compleja

Las manos humanas siempre han sido el área más afectada por los modelos generativos multimodales. Aunque la imagen de la mano humana generada por FLUX.1 aún no es perfecta, ha logrado grandes avances.

▲ Mano de obra

FLUJO.1 totalEdición profesional, edición para desarrolladores, edición ExpressTres versiones.

en,Flujo.1[pro]Es la versión más avanzada con seguimiento instantáneo de alto nivel, calidad visual, detalle de imagen y diversidad de resultados, brindando soluciones empresariales personalizadas para usuarios profesionales.

▲ Ejemplo de imagen generada por FLUX.1[pro]

FLUX.1[desarrollo]Destinado a aplicaciones no comerciales, es una versión mejorada del FLUX.1[pro] y ofrece calidad y capacidades similares, a la vez que es más eficiente que los modelos estándar del mismo tamaño.

▲ Ejemplo de imagen generada por FLUX.1[dev]

FLUX.1[rápido]Es el más rápido de los tres modelos, está personalizado para desarrollo local y uso personal y está disponible públicamente bajo la licencia estándar Apache 2.0.

▲ Ejemplo de imagen generada por FLUX.1[schnell]

FLUX.1 ahora está disponible en la plataforma de código abierto Replicate y se puede ejecutar en la nube con solo una línea de código, o los usuarios pueden descargar pesos de modelos y ejecutarlos mediante programación. La API de FLUX.1 también está abierta al mismo tiempo y los precios de los tres modelos son los que se muestran en la imagen.0,055 dólares, 0,03 dólares, 0,003 dólares(Aproximadamente 0,4, 0,22 y 0,022 yuanes RMB).

2. DerrotaMJ V6DallY 3, el informe técnico se publicará pronto

En términos de rendimiento, FLUX.1 ha sido especialmente ajustado para retener toda la diversidad de salida en el entrenamiento previo, estableciendo nuevos estándares en muchos aspectos como el cumplimiento de las instrucciones, la calidad visual, los cambios de tamaño/longitud y ancho, etc.

Entre ellos, dos modelos, FLUX.1 [pro] y [dev], superaron a modelos populares como Midjourney v6.0, DALL·E 3 y SD3-Ultra en cinco criterios de evaluación.

Como modelo liviano, FLUX.1[schnell] no solo es mejor que competidores similares, sino también mejor que modelos potentes no destilados como Midjourney v6.0 y DALL·E 3.

▲ Comparación del rendimiento de FLUX.1 con los modelos convencionales

Además, todos los modelos FLUX.1 admiten múltiples relaciones de aspecto y resoluciones de 0,1 y 2,0 megapíxeles.

▲ Cambios en la relación de aspecto/resolución

¿Cómo se consigue un rendimiento tan potente?

En términos de arquitectura del modelo, FLUX.1 adopta una arquitectura híbrida basada en módulos transformadores de difusión paralela y multimodal, y la extiende a parámetros 12B.

El equipo mejoró el modelo de difusión de última generación mediante la creación de Flow Matching y mejoró el rendimiento del modelo y la eficiencia del hardware mediante la combinación de Rotary Position Embedding y capas de atención paralelas. En breve se publicará un informe técnico más detallado.

tres,Dakota del SurLa tripulación original,2.25100 millonesRonda de semillas, quiero enviarSOTAmodelo de vídeo

Black Forest Lab fue establecido por el equipo fundador de Stable Diffusion. El trabajo anterior del equipo también incluyó el modelo de generación de imágenes de alta calidad VQGAN, el modelo de generación de video Stable Video Diffusion, etc.

Entre los 5 autores originales de Stable Diffusion,4Los miembros que se unieron a Stability AI y continuaron desarrollando versiones posteriores de SD, incluidos Robin Rombach, Andreas Blattmann, Dominik Lorenz y Patrick Esser, forman parte del equipo fundador de Black Forest Labs.

▲Autor de Stable Diffusion y equipo fundador de Black Forest Lab

El equipo dice que sus creencias fundamentales son desarrollar modelos ampliamente accesibles, promover la innovación y la colaboración en la comunidad académica y de investigación, y aumentar la transparencia de los modelos.

Black Forest Labs anuncia su finalización$31 millones(aproximadamente 225 millones de RMB)Financiamiento de ronda semillaEn la inversión también participaron, liderado por la conocida institución de capital riesgo a16z (Andreessen Horowitz), Brendan Iribe, director ejecutivo del fabricante de realidad virtual Oculus, Garry Tan, director ejecutivo de la incubadora de startups YC, el investigador de NVIDIA Timo Aila y otros expertos y empresas de inteligencia artificial. y también recibió Ha habido inversiones de seguimiento de fondos de primer nivel como General Catalyst.

El consejo asesor del equipo incluye al ex presidente de Disney, Michael Ovitz, que tiene una amplia experiencia en la industria de la creación de contenidos, y al profesor Matthias Bethge, un pionero en la transferencia de estilo neuronal.

Maestro de IA que acaba de comenzar su negocioAndrei Capasi(Andrej Karpathy) envió sus bendiciones al equipo de la Selva Negra y dijo que "el modelo de generación de imágenes de código abierto FLUX.1 parece muy poderoso".

▲Comentarios de Kapasi

Ex líder del equipo fundador - ex director ejecutivo de Stability AIEmad Mostak(Emad Mostaque) también envió un mensaje de felicitación y dijo: "Ha sido un honor trabajar con ellos antes y creo que continuarán superando los límites en el viaje de generar cada píxel".

▲ Comentarios de Mostaq

En el siguiente paso de trabajo, Black Forest Trailer lanzará unModelo de vídeo SOTA Vincent , "Permite que todos conviertan texto a video". El modelo se construirá sobre FLUX.1, "lo que permitirá una creación y edición precisas en alta definición y una velocidad sin precedentes".

▲ Vista previa del modelo de generación de video

Conclusión: Los caballos oscuros surgen en el campo de los grandes modelos multimodales

Si bien muchos fabricantes importantes y empresas emergentes están locos por los videos de Vincent, el campo de las imágenes de Vincent de repente marcó el comienzo de un caballo oscuro. El FLUX.1 "nacido de la nada" no solo muestra un rendimiento excelente, superando las dificultades en la generación de texto, composición compleja, dibujo manual, etc., sino que también satisface las necesidades de diferentes usuarios con versiones diversificadas.

Confiando en la gran fortaleza del equipo original de Stable Diffusion, Black Forest Laboratory ha obtenido una generosa ronda de financiación inicial y ha atraído la atención y el apoyo de muchos líderes de la industria. Los modelos de vídeo que se lanzarán en el futuro inyectarán nueva vitalidad al campo del vídeo de Vincent.

noticias

¡El modelo gráfico Wensheng de código abierto más poderoso cambió de manos de la noche a la mañana! Creado por el equipo original de SD, se lanzará el modelo de generación de video SOTA

Introducción

Mi informacion de contacto