noticias

¡Se anuncia oficialmente el equipo original de la nueva compañía de StableDiffusion!Un nuevo modelo continuo actualiza el paisaje de pintura con IA

2024-08-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

La casa se originó en el templo de Aofei.
Qubits | Cuenta pública QbitAI

justo,El equipo original de Stable Diffusion anunció oficialmente la nueva empresa.

Robin Rombach, quien anunció su salida de Stability AI en marzo, es uno de los dos autores principales de Stable Diffusion, y una docena de sus socios originales de la empresa anunciaron oficialmente la noticia de formar un grupo para iniciar un negocio.

Nuevo nombre de la empresaLaboratorio de la Selva Negra, Laboratorio de la Selva Negra . Tan pronto como debutó, Kuku lanzó una serie de 3 modelos de generación de imágenes, 2 de los cuales son de código abierto.

yAdmite entrada china

¿Cuál es el efecto? ¡Los internautas que lo vieron dijeron que era una locura!

Ingrese la palabra indicada y pruebe los efectos de pantalla, los datos faciales y otras medidas de seguridad a la vez:

Una adolescente que lleva un pasamontañas hace origami en un granero. Hay un texto amarillo designado en la parte inferior de la imagen. Hay un marco al fondo con una foto de Obama en su interior.



Justo después de ver este conjunto de imágenes y textos, algunos internautas lamentaron que este sea el mejor efecto de generación de imágenes que jamás hayan visto.



La característica de esta empresa es que no es reservada.

El establecimiento se anunció oficialmente hoy, hoy se lanzaron una serie de modelos y también se anunció el progreso del financiamiento——

Se completó US$32 millones en financiamiento, liderado por a16z, con inversiones del cofundador de Oculus VR, Brendan Iribe, el ex socio de YC, Garry Tan, Timo Aila, quien dirige el grupo de investigación de gráficos por computadora en NVIDIA Research, el distinguido científico de Apple (ex científico jefe de Intel Intelligent Systems) Vladlen Koltun y otros.

Se puede decir que Black Forest no solo recibió apuestas del mercado de capitales, sino que también se ganó el favor de los líderes de la industria.

El maestro de IA Kapasi también envió un mensaje de felicitación en línea y también elogió el nuevo modelo de la Selva Negra:

¡Cuidado! El modelo de generación de imágenes FLUX.1 de código abierto parece muy poderoso.



Y tenga en cuenta que el acuerdo de código abierto es el Apache2.0.

El debut del modelo de generación de imágenes de la Selva Negra

Kapasi se siente emocionado. Experimentemos visualmente el efecto modelo de la selva negra.

Aquí, Qubit ha seleccionado cinco tipos de efectos de generación para mostrar. Todas las imágenes son proporcionadas por el funcionario y no se especifica qué modelo se utiliza.

El primer nivel es la generación de texto.

Palabra clave: Foto de una vieja pizarra de un salón de clases. Escrito con tiza en la pizarra está "hagamos juntos algunas cosas realmente bonitas" con un corazón de tiza roja después de las palabras. El sol entra por la ventana.



El segundo nivel es escena no real + generación de texto.

Aviso: En la escena submarina, dos búhos están sentados en una hermosa mesa de comedor. En el centro de la mesa hay una vela encendida. Los dos búhos disfrutan juntos de una deliciosa cena. El búho de la izquierda lleva un esmoquin y el búho de la derecha lleva un hermoso vestido. Hay un submarino pasando al fondo con "What a Hoot" pintado en un costado. La imagen debajo de la mesa tiene pequeñas medusas nadando en el fondo, una hermosa obra de arte digital cinematográfica.



El tercer nivel es una escena real en el mundo real.

Palabra clave: una foto de una hermosa calle de Friburgo, con un tranvía pasando y gente caminando y en bicicleta.



El cuarto nivel es la generación de personajes reales y personajes de anime.

Palabra clave: Foto de tres mujeres en una calle del centro de la ciudad, con las manos extendidas hacia la cámara.



Palabra rápida: Hermosa obra de arte de anime de una linda niña gata que parece deprimida y sostiene un trozo de papel con una sonrisa dibujada en él, está a punto de llorar.



El quinto nivel es la generación de imágenes de animales.

Palabra clave: un gato montés en el bosque, fotografiado por un fotógrafo profesional bajo una luz brillante.



Palabra de consejo: Representación en primer plano de una criatura mítica compuesta de zarcillos y fractales en espiral detallados, textura de piel recursiva detallada



Modelos de la serie FLUX.1

Esta vez, Black Forest ha lanzado tres modelos de la serie FLUX.1: pro, dev y schnell.



FLUX.1 [pro]: El sonido más fuerte de la serie.

La esencia de la serie FLUX.1, que proporciona un rendimiento óptimo en la generación de imágenes con el mejor cumplimiento de comandos, calidad visual, detalle de imagen y diversidad de salida de su clase.

El equipo de Black Forest está mejorando lentamente las capacidades de computación de inferencia de FLUX.1 [pro] en la API.

Se puede acceder a esta versión a través de Replicate y fal.ai y ofrece soluciones empresariales dedicadas y personalizadas.

FLUX.1 [dev]: Copa en serie.

Un modelo que permite uso no comercial, es ponderado abierto y destilado.

[dev] Destilado directamente de [pro], ofrece una calidad similar y un cumplimiento rápido, a la vez que es más eficiente que los modelos estándar del mismo tamaño.

Puedes probarlo en Huhuface o probarlo directamente en Replicate o fal.ai.

FLUX.1 [schnell]: Pequeño torbellino de velocidad.

El modelo más rápido de la serie, hecho a medida para el desarrollo local y desarrolladores individuales.

FLUX.1 [schnell] está disponible públicamente bajo la licencia Apache2.0. Los pesos del modelo se pueden consultar en Huohuofian. El código de inferencia se puede encontrar en GitHub.

Ha sido compatible con ComfyUI y se puede utilizar directamente; también se puede utilizar a través de Replicate o fal.ai.

¡Tengamos un sentimiento intuitivo!

Aquí hay tres fotos, que son los efectos generados de la taza grande, la taza mediana y la taza pequeña de arriba bajo diferentes palabras, en torno al tema "pastel".

△De izquierda a derecha, los modelos utilizados son copas grandes, medianas y pequeñas.

Después de muchas pruebas, Qubit descubrió que si se ingresa una palabra simple, el tiempo que lleva generar una imagen usando la versión pro es de entre 15 y 25 segundos (el tiempo de generación se mostrará debajo del cuadro de resultados).



Black Forest dice que todos los modelos FLUX.1Ambos se basan en una arquitectura híbrida de bloques transformadores de difusión paralela y multimodal y se extienden a parámetros 12B.

Entre los tres modelos, FLUX.1 [pro] y [dev] superaron a Midjourney v6.0 y DALL· en términos de calidad visual, capacidad de respuesta inmediata, flexibilidad de relación tamaño/aspecto, composición tipográfica y diversidad de salida. Difusión 3-Ultra.

El equipo considera que FLUX.1 [schnell] es "el modelo de pocos pasos más avanzado hasta la fecha".

No sólo destaca entre competidores similares, sino que también supera a modelos sin compresión más potentes como Midjourney v6.0 y DALL·E 3(HD).

Toda la serie FLUX.1 ha sido ajustada específicamente para conservar toda la diversidad de salida de la fase de preentrenamiento.

En comparación con las tecnologías existentes, FLUX.1 tiene las siguientes ventajas:



Alguien inevitablemente preguntará: ustedes son los veteranos de OG y los miembros principales de Stability AI.

Entonces,¿Cuál es la diferencia entre su nuevo modelo y su modelo de Difusión Estable?

Los miembros del equipo fundador respondieron en Reddit:

Incluso nuestro modelo más débil, Schnell, tiene una mejor calidad de construcción y tiempos de construcción más rápidos.

El objetivo principal es fundar una nueva empresa y superarme a mí mismo.



Creado por un equipo de autores principales de SD

Luego de presentar la información relacionada con el modelo, llega el momento de conocer formalmente esta nueva empresa.

laboratorio de la selva negra, acaba de anunciar hoy.

En el sitio web oficial de la empresa hay un lema: Una nueva era de creación.

La misión de la empresa es promover modelos de aprendizaje profundo de última generación y alta calidad para la generación de imágenes y vídeos y ponerlos a disposición de la audiencia más amplia.

¡Aparece Huadian!SuLa próxima ambición es obvia: entrar en el campo de la generación de vídeo.

Además, debe ser "SOTA".



Miembro principalRobin Rombach, ex científico investigador de Stability AI.

Mientras trabajaba en Stability AI, fue uno de los principales desarrolladores del modelo Stable Diffusion y también participó en la investigación de SDXL, SVD y otros proyectos.

En marzo de este año, Robin dejó Stability AI.

El mundo exterior comentó que su partida ha dañado gravemente a la ya caótica empresa unicornio; después de todo, él es uno de los dos principales actores de SD.



Mirando hacia atrás, Robin obtuvo su licenciatura y su maestría en física en la Universidad de Heidelberg.

En 2020 comenzó a estudiar un doctorado en Ciencias de la Computación en el Computer Vision Group de Heidelberg bajo la supervisión de Björn Ommer y en 2021 se trasladó a la Universidad de Múnich con el grupo de investigación.

La investigación se centra en generar modelos de aprendizaje profundo, especialmente sistemas de texto a imagen.

Google Scholar tiene casi 15.000 citas.



Además, entre los miembros revelados en el sitio web oficial se encuentran Andreas Blattmann, Axel Sauer, Dominik Lorenz, Dustin Podel, Frederic Boesel, Patrick Esser, Sumith Kulal, Tim Dockhorn, Yam Levi, Zion English.Todos son miembros originales de Stability AI disponibles públicamente.

(Andi Holmes y Jonas Müller aún no han encontrado información precisa)



Se puede decir que Black Forest son los miembros principales originales de SD que se fueron y zarparon nuevamente.

No es de extrañar que Axel Sauer reenviara el tweet oficial y gritara en voz alta:

¡Todavía estamos vivos!



Una cosa más

Qué coincidencia, el mismo día, Stability AI también hizo nuevos movimientos:

Lanzamiento de nuevos modelos de IA3D estable y rápido, los funcionarios dicen que se puede utilizar enGenera imágenes 3D en medio segundo

Mientras que el modelo anterior tardaba unos minutos en generar una imagen 3D con efectos similares, el nuevo modelo puede completar la misma tarea 1200 veces más rápido que el modelo existente.



Esa estabilidad AI se lanzó en marzoEl CEO fugitivo, Emad Mostaque, ¿qué está haciendo?

En junio anunció oficialmente su paradero.Inteligencia artificial de Schelling, "construirá y respaldará código fuente abierto, modelos y conjuntos de datos respaldados por financiación de IA".

La atención se centra en la investigación innovadora y la IA cuidadosamente construida que sea culturalmente consciente, científica, educativa y creativa.

Hace tres días, Schelling AI publicó el primer artículo de la serie, "Cómo pensar en la IA".

El artículo es un poco largo. Los amigos que estén interesados ​​pueden buscarlo y verlo ellos mismos. Aquí mencionaré las ideas principales.

La IA se está desarrollando rápidamente, promoviendo el código abierto y la apertura, y acelerando la innovación y la colaboración.



¡Y qué tal si todos seamos personas decentes!

El tweet que anuncia el establecimiento del Laboratorio de la Selva Negra fue amablemente enviado por el ex director ejecutivo (ponga una cabeza de perro aquí).

Enlaces de referencia:
[1]https://blackforestlabs.ai
[2]https://news.ycombinator.com/item?id=41130620
[3]https://x.com/EMostaque
[4]https://www.reddit.com/r/StableDiffusion/comments/1eds0l9/¿Alguien tiene una actualización sobre cuándo es estable?
[5]https://x.com/SchellingAI/status/1818600200232927721