Mi información de contacto
Correo[email protected]
2024-08-18
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Autor|Xuushan, editor|Manman Zhou
“
Mucha gente espera que se convierta en el próximo Midjourney.
”
Esta puede ser la startup de IA con mayor ejecución de la historia.
Apenas 15 días después de su creación, la startup de IA Black Forest Labs ya recaudó 32 millones de dólares en financiación inicial y lanzó la serie FLUX.1 de grandes modelos Vincent AI.
No solo eso, incluso Grok-2, un gran modelo de IA que acaba de producir Musk, lanzó rápidamente una función gráfica vicenciana con su apoyo, atrayendo a millones de internautas a participar en la interacción.
Y a diferencia de la función de imagen vicenciana de otros modelos de IA, casi no hay restricciones en las imágenes generadas en Grok-2 y son bastante realistas.
Ya sea que quieras que Steve Jobs se burle del gato o que Zuckerberg y Musk se reúnan fuera de línea en la "Jaula Octagonal", Grok-2 puede satisfacer tus deseos. Se puede ver que el modelo funciona muy bien en términos de comprensión semántica, alineación y capacidades de generación de imágenes (excepto en materia de seguridad).
¿Cuál es el origen de esta empresa? ¿Cómo enloqueció a los internautas, e incluso Musk estuvo dispuesto a elegirlo para impulsar sus productos principales? Después de una investigación en profundidad, Silicon Rabbit finalmente desveló el misterio de Black Forest Labs.
01
La oportunidad para el establecimiento de Black Forest Labs comienza con Stability AI, otra empresa unicornio de IA.
De hecho, el equipo inicial actual de 15 personas de Black Forest Labs proviene exclusivamente de Stability AI. Se puede decir que la creación de Black Forest Labs fue una fuga colectiva de empleados.
El fundador de Black Forest Labs, Robin Rombach, fue un ex científico investigador de Stability AI y uno de los dos pilares centrales de Stability AI.
Estudió física en la Universidad de Heidelberg y comenzó sus estudios de doctorado en el grupo de visión por computadora de la universidad en 2020. Robin se ha centrado en modelos de aprendizaje profundo, especialmente en el campo de los gráficos vicencianos, y luego se unió a la Universidad de Munich en 2021 con el equipo de investigación científica.
Durante su tiempo en Stability AI, dirigió el desarrollo del modelo grande de IA gráfica vicenciana.Difusión estable. Al principio, Stable Diffusion podría considerarse el señor supremo en el campo de las imágenes de IA, lo que causó conmoción en la industria. La valoración de Stability AI también superó los mil millones de dólares, lo que la convierte en uno de los unicornios de la IA.
Pero el desarrollo de la IA de estabilidad dará un giro brusco en 2024. Según los informes, los costos anuales de Stability AI son de aproximadamente 99 millones de dólares, pero sus ingresos son de sólo 11 millones de dólares, lo que genera un grave desequilibrio entre ingresos y gastos. Posteriormente, el ex director ejecutivo de Stability AI, Emad Mostaque, sacó de la empresa al menos a 19 altos ejecutivos en marzo de este año.
Robin Rombach también empezó a buscar de nuevo una salida. Black Forest Labs es un nuevo comienzo para él y un nuevo punto de partida para muchos ex empleados de Stability AI. Cuando se fundó Black Forest Labs, muchos empleados de Stability AI dijeron con entusiasmo: "¡Estamos en vivo!".
Actualmente, existen tres versiones de los modelos de la serie FLUX.1, tanto de código abierto como de código cerrado. Entre ellos, FLUX.1 [pro] es la versión de código cerrado más potente, diseñada para aplicaciones profesionales que buscan el máximo rendimiento; FLUX.1 [dev] es un modelo de IA de código abierto que proporciona un rendimiento más eficiente en calidad de imagen y rapidez; palabras, pero no para uso comercial; FLUX.1 [schnell] es una versión de código abierto diseñada para desarrollo local y uso personal. Es la más rápida de las tres versiones y requiere la menor cantidad de memoria.
Los tres modelos tienen versiones de prueba abiertas en Replicate y Models. En sólo medio mes, FLUX.1 [dev]Cara abrazadaEl número de descargas superó las 200.000, el número de descargas de FLUX.1 [schnell] superó las 580.000 y el número de experiencias alcanzó los 380 millones de veces.
Enlace de experiencia de registro: FLUX.1 [schnell]: https://replicate.com/black-forest-labs/flux-schnell
02
Aunque los modelos de la serie FLUX.1 son creados por el equipo original de Stable Diffusion, esto no significa que sean réplicas de Stable Diffusion.
Los medios reunieron Flux, SD3 Medium, Auraflow y Midjourney para su revisión. Se puede ver que el relativamente excelente modelo gráfico vicenciano actual genera diferentes fotografías para el mismo mensaje de texto.
Primero, indique uno: "Ilustración dibujada a mano de una araña gigante persiguiendo a una mujer en la jungla. Escena extremadamente aterradora, dolorosa, oscura y espeluznante, con una atmósfera aterradora y sugerente".
Se puede ver que Flux usa muy bien luces y sombras para crear una sensación de horror. El diseño de la araña es realmente aterrador, las patas son afiladas y la cara de la araña es muy realista. El tono cian de Auraflow no logra un efecto oscuro y aterrador, y la imagen general está estilizada. El estilo en blanco y negro de SD3 Medium da a las personas una fuerte sensación de boceto. El diseño de la araña es detallado y aterrador, pero la caracterización es un poco inconsistente.
La segunda evaluación examina principalmente la capacidad de los generadores de imágenes para comprender el espacio. El mensaje de texto dice: "Un perro está parado encima de un televisor con la palabra 'Decrypt' mostrada en la pantalla. A la izquierda hay una mujer con traje sosteniendo una moneda, y a la derecha hay un robot parado sobre un botiquín de primeros auxilios. kit. Toda la escena fue surrealista”.
La imagen generada por Flux es la más cercana a la descripción, coloca todos los elementos donde deben estar. La composición general es equilibrada, el diseño de cada elemento y el estilo retrofuturista cumplen con los requisitos del surrealismo. Pero también tiene algunas deficiencias, como que el personaje tiene una mano extra. SD3 Medium ocupó el segundo lugar. El diseño general también cumplió con los requisitos de descripción del texto, pero faltó precisión. Por ejemplo, el perro estilo caricatura debería estar de pie en lugar de sentado. Auraflow tiene lagunas en la precisión de la comprensión del texto y la calidad de las imágenes que presenta.
El tercer consejo dice: "Una foto de alta resolución de una concurrida calle de la ciudad por la noche. Las luces de neón iluminan la escena. La gente camina por la acera, pasan autos y los vendedores ambulantes venden perritos calientes. Las luces se reflejan en la carretera resbaladiza. Estilo general hiperrealista, atención al detalle y la iluminación, el letrero de neón dice 'Decrypted'". Este consejo se centra en observar la visión del realismo de los principales generadores de imágenes.
La imagen generada por Flux es rica en detalles y está bien iluminada. La imagen muestra bien la concurrida calle, con señales clave claras e imágenes vívidas de peatones. SD3 también es capaz de mostrar una composición equilibrada, una iluminación realista y elementos cuidadosamente integrados, pero la representación de los peatones es un poco escasa.
Finalmente, el medio extranjero Decrypt también evaluó a Flux y Midjourney y finalmente consideró que Flux era más fuerte.
El primer mensaje de texto dice: "Una foto en blanco y negro de una mujer con cabello largo y liso sentada en el suelo frente a un sofá moderno, vestida con un traje completamente negro que resalta sus curvas. Mira con confianza a la cámara. Posando, su sus piernas delgadas quedan expuestas mientras se agachaba contra un fondo minimalista que acentuaba su pose elegante. Fotografiada por Peter Lindbergh usando una lente Hasselblad X2D de 105 mm con una apertura de f/4 para mejorar el atractivo visual”.
Decrypt cree que Flux captura los requisitos del mensaje con poses naturales, fondos contextuales y renderizado detallado. Morfológicamente hablando es el más exacto. Midjourney muestra imágenes vívidas y detalles ricos en las imágenes, pero carece de capas de imágenes como Flux, y la representación de la postura corporal no es tan precisa como Flux.
El segundo mensaje de texto decía "Foto de cuerpo entero de un gato blanco tocando el piano, con gafas de sol y sombrero, vestido con un traje morado de estilo hawaiano sobre un fondo gris de estudio, para uso comercial".
Decrypt cree que Flux cumple con los requisitos de una fotografía de cuerpo completo, un fondo de estudio gris y ropa designada. La composición es profesional y exquisita, y cumple plenamente con los requisitos. Midjourney proporciona primeros planos y la imagen es expresiva, pero no cumple con los requisitos de las tomas de cuerpo completo ni de los fondos de estudio.
Se puede ver que Flux ha estado a la vanguardia de la industria en términos de detalles fotográficos y comprensión del espacio y estilización. Puede competir con Midjourney y es incluso mejor que Midjourney en algunos aspectos.
03
Se puede decir que el campo de AI Wenshengtu está en este momento.IA generativaUna de las pistas más calientes del campo. Actualmente, Google, Meta y OpenAI están apuntando a este campo. Las capacidades demostradas por FLUX.1 han llevado a muchas personas a esperar que se convierta en el próximo Midjourney.
Pero la clave para convertirse en el próximo Midjourney reside en la comercialización.
El plan básico de Midjourney, pionero en el mismo rubro, cuesta 96 dólares al año y puede generar unas 200 imágenes al mes, lo que equivale a 25 imágenes por dólar. El plan básico de Ideogram cuesta $84 por año y puede generar hasta 400 imágenes por mes, o 50 imágenes por dólar.
Black Forest se ha asociado con Fal AI, el desarrollador del modelo de código abierto Auraflow, para respaldar la generación de la nube. Estos modelos también están disponibles para pruebas gratuitas en Replicate.com. Una vez que los usuarios alcanzan su cuota diaria gratuita, pueden optar por utilizar el modelo Flux Pro para generar 33 imágenes por 1 dólar o utilizar Flux Schell para generar 333 imágenes por 1 dólar.
En comparación con Midjourney e Ideogram, Black Forest ofrece a los usuarios más opciones. Pero esto no representa el éxito comercial de Black Forest. El coste de mantener un modelo de IA generativa es muy alto. Tomemos como ejemplo Stability AI, según Forbes, Stability AI gasta alrededor de 8 millones de dólares al mes en costos y salarios, pero sus ingresos son de sólo 1,2 millones de dólares, lo que está lejos de cubrir los costos. Hoy en día, la comercialización también se ha convertido en un vínculo "atascado" para Ideogram y Pika Labs AI.
Por lo tanto, para superar verdaderamente a Midjourney, la forma en que Black Forest equilibre los ingresos y los gastos será la clave para su dominio del gran modelo de IA vicenciano.
04
Black Forest Labs y Musk parecen estar de acuerdo en construir un "chatbot de IA anti-despertar", y ninguno quiere imponer demasiadas restricciones a la IA.
El "chabot de IA anti-despertado" aquí se refiere a un chatbot de IA que evita deliberadamente adoptar ciertos puntos de vista políticamente correctos o socialmente despertados. No filtrará temas controvertidos cuando se enfrenten a ellos. Grok es obviamente el portador del concepto de "chatbot de IA anti-despertar" de Musk.
En términos de evaluación de seguridad, aunque Grok mencionó sus seis "prohibiciones", incluidas restricciones de contenido, derechos de autor, complejidad del procesamiento de imágenes, etc., de hecho, a juzgar por las fotos generadas, Grok casi no tiene tabúes, incluidas celebridades, pornografía, violencia, etc. Las imágenes generadas se han vuelto populares en la plataforma social X.
Aunque varias agencias reguladoras han expresado su descontento con la Plataforma Social X, Musk todavía parece imperturbable. Después del lanzamiento de Grok-2, Musk también permitió a los usuarios publicar imágenes de IA generadas por Grok directamente en la plataforma sin ningún mensaje de marca de agua generada por IA o Grok.
Musk mencionó en la plataforma social X en 2022 que establecer límites para la IA reduciría la seguridad del modelo de IA. "Entrenar IA es fácil de despertar. En otras palabras, el peligro de que (IA) mienta es fatal". Algunos medios especularon que puede deberse a que el modelo de la serie FLUX.1 no impuso demasiadas restricciones lo que llevó a Musk a elegir Grok. para tomar el control. Ingrese los modelos de la serie FLUX.1.
de acuerdo aEl bordeSegún la evaluación de muchos medios, el modelo de imagen AI similar de Google, Imagen, y DALL·E 3 de OpenAI también se negaron a generar palabras rápidas con "connotaciones peligrosas", pero Grok respondió rápidamente y generó imágenes rápidamente.
Hace apenas medio mes, cuando se fundó Black Forest Labs, anunció que el objetivo de la empresa era "aumentar la confianza de la gente en la seguridad de estos modelos". Medio mes después, Black Forest Labs y Musk se pusieron del lado de "no restricciones a la IA" y abrieron la caja negra del modelo de IA vicenciano.
Ante numerosas controversias, Black Forest Labs opta ahora por evitar hablar del tema, intentando desviar el foco de la discusión hacia otras direcciones. Anjney Midha, miembro de su junta directiva, criticó a Google en la plataforma social X el 14 de agosto. GéminisCuando se lanzó por primera vez, había discriminación racial oculta y otras situaciones en el campo de los gráficos vicencianos, y se afirmó que tales situaciones no ocurrirían en los modelos de la serie FLUX.1.
Podemos ver que en términos de capacidades gráficas vicencianas, los modelos de la serie FLUX.1 son realmente potentes y ya pueden competir con Midjourney. Pero en términos de seguridad, Black Forest Labs parece haber elegido un camino diferente al de los jugadores que siguen el mismo camino.
¿"No poner barreras de seguridad" convertirá a Black Forest Labs en un actor absolutamente dominante en el campo de la gráfica vicenciana? ¿O destruirá de un solo golpe la nueva popularidad de los modelos de la serie FLUX.1? Ya veremos.