Nachricht

Midjourney Challenge erscheint! Erhielt innerhalb von 15 Tagen eine Finanzierung in Höhe von 32 Millionen und stieg in Groks internes Geschäft ein

2024-08-18

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Autor|Xuushan, Herausgeber|Manman Zhou

Viele Leute erwarten, dass es das nächste Midjourney wird.

Dies ist möglicherweise das leistungsstärkste KI-Startup in der Geschichte.

Nur 15 Tage nach seiner Gründung hat das KI-Startup Black Forest Labs bereits eine Seed-Finanzierung in Höhe von 32 Millionen US-Dollar eingesammelt und die FLUX.1-Serie großer Vincent-KI-Modelle auf den Markt gebracht.

Darüber hinaus startete sogar Grok-2, ein großes KI-Modell, das gerade von Musk entwickelt wurde, mit seiner Unterstützung schnell eine Vincentian-Graph-Funktion und lockte Millionen von Internetnutzern an, an der Interaktion teilzunehmen.

Und im Gegensatz zur vinzentinischen Bildfunktion anderer KI-Modelle gibt es bei den auf Grok-2 erzeugten Bildern nahezu keine Einschränkungen und sie sind recht realistisch.

Egal, ob Sie möchten, dass Steve Jobs die Katze neckt, oder dass sich Zuckerberg und Musk offline im „Octagonal Cage“ treffen, Grok-2 kann Ihre Wünsche erfüllen. Es ist ersichtlich, dass das Modell in Bezug auf semantisches Verständnis, Ausrichtung und Bilderzeugungsfähigkeiten (mit Ausnahme der Sicherheit) sehr gute Leistungen erbringt.

Was ist der Ursprung dieses Unternehmens? Wie hat es dazu geführt, dass die Internetnutzer davon begeistert waren und dass sogar Musk bereit war, es als Antrieb für seine Kernprodukte zu wählen? Nach einer eingehenden Untersuchung enthüllte Mr. Silicon Rabbit schließlich das Geheimnis der Black Forest Labs.

01

Insgesamt konnten 15 Personen der Stabilitäts-KI entkommen

Black Forest Labs veröffentlicht drei KI-Modelle nacheinander

Die Chance zur Gründung von Black Forest Labs beginnt mit Stability AI, einem weiteren KI-Einhornunternehmen.

Tatsächlich besteht das aktuelle 15-köpfige Start-up-Team von Black Forest Labs ausschließlich aus Stability AI. Man kann sagen, dass die Gründung der Black Forest Labs eine kollektive Flucht von Mitarbeitern war.

Der Gründer von Black Forest Labs, Robin Rombach, war ehemaliger Forschungswissenschaftler bei Stability AI und einer der beiden Grundpfeiler von Stability AI.

Er studierte Physik an der Universität Heidelberg und begann 2020 sein Doktoratsstudium in der Computer Vision-Gruppe der Universität. Robin hat sich auf Deep-Learning-Modelle, insbesondere im Bereich der vinzentinischen Graphen, konzentriert und kam dann 2021 mit dem wissenschaftlichen Forschungsteam an die Universität München.

Während seiner Zeit bei Stability AI leitete er die Entwicklung des großen Vincentian Graph AI-Modells.Stabile Diffusion. Zu Beginn konnte man Stable Diffusion als den Overlord auf dem Gebiet der KI-Bildgebung bezeichnen, was einen Schock in der Branche auslöste. Der Wert von Stability AI hat ebenfalls die Marke von 1 Milliarde US-Dollar überschritten und gehört damit zu den KI-Einhörnern.

Doch die Entwicklung der Stabilitäts-KI wird im Jahr 2024 eine scharfe Wende nehmen. Berichten zufolge belaufen sich die jährlichen Kosten von Stability AI auf etwa 99 Millionen US-Dollar, die Einnahmen betragen jedoch nur 11 Millionen US-Dollar, was zu einem gravierenden Ungleichgewicht zwischen Einnahmen und Ausgaben führt. Anschließend entließ der ehemalige CEO von Stability AI, Emad Mostaque, im März dieses Jahres mindestens 19 leitende Angestellte aus dem Unternehmen.

Auch Robin Rombach begann wieder nach einem Ausweg zu suchen. Black Forest Labs ist für ihn ein Neuanfang und für viele ehemalige Mitarbeiter von Stability AI ein neuer Ausgangspunkt. Als Black Forest Labs gegründet wurde, sagten viele Mitarbeiter von Stability AI begeistert: „Wir sind live!“.

Derzeit gibt es drei Versionen der Modelle der FLUX.1-Serie, sowohl Open Source als auch Closed Source. Unter ihnen ist FLUX.1 [pro] die leistungsstärkste Closed-Source-Version, die für professionelle Anwendungen entwickelt wurde, die höchste Leistung anstreben; FLUX.1 [dev] ist ein Open-Source-KI-Modell, das eine effizientere Leistung in Bezug auf Bildqualität und Schnelligkeit bietet Worte. Dienst, aber nicht für den kommerziellen Gebrauch; FLUX.1 [schnell] ist eine Open-Source-Version, die für die lokale Entwicklung und den persönlichen Gebrauch konzipiert ist. Sie ist die schnellste der drei Versionen und benötigt den kleinsten Speicher.

Für alle drei Modelle gibt es offene Testversionen auf Replicate und Models. In nur einem halben Monat hat FLUX.1 [dev]UmarmungsgesichtDie Anzahl der Downloads hat 200.000 überschritten, die Anzahl der Downloads von FLUX.1 [schnell] hat 580.000 überschritten und die Anzahl der Erlebnisse hat 380 Millionen Mal erreicht.

Link zur Registrierungserfahrung: FLUX.1 [schnell]: https://replicate.com/black-forest-labs/flux-schnell

02

Hengping-Rezension der vier wichtigsten KI-Bildgeneratoren

Flux gewinnt an Details und räumlichem Verständnis

Obwohl die Modelle der FLUX.1-Serie vom ursprünglichen Team von Stable Diffusion erstellt wurden, bedeutet dies nicht, dass es sich um Nachbildungen von Stable Diffusion handelt.

Die Medien haben Flux, SD3 Medium, Auraflow und Midjourney zur Überprüfung zusammengestellt. Es ist ersichtlich, dass das aktuelle relativ hervorragende Vincentian-Grafikmodell unterschiedliche Fotos für dieselbe Textaufforderung generiert.

Erstens, Aufforderung eins: „Handgezeichnete Illustration einer Riesenspinne, die eine Frau im Dschungel jagt. Extrem beängstigende, schmerzhafte, dunkle und gruselige Szene mit einer beängstigenden, suggestiven Atmosphäre.“

Es ist zu erkennen, dass Flux Licht und Schatten sehr gut nutzt, um ein Gefühl des Grauens zu erzeugen. Das Design der Spinne ist tatsächlich gruselig, die Beine sind scharf und das Gesicht der Spinne ist sehr realistisch. Der Cyan-Ton von Auraflow erzielt keine düstere und gruselige Wirkung und das Gesamtbild wirkt stilisiert. Der Schwarz-Weiß-Stil von SD3 Medium vermittelt den Menschen ein starkes skizzenhaftes Gefühl. Das Design der Spinne ist detailliert und furchterregend, aber die Charakterisierung ist etwas inkonsistent.

Die zweite Auswertung untersucht vor allem die Fähigkeit der Bildgeneratoren, den Raum zu verstehen. Die Textaufforderung lautet: „Ein Hund steht auf einem Fernseher, auf dem Bildschirm wird das Wort „Entschlüsseln“ angezeigt. Links ist eine Frau in einem Anzug mit einer Münze in der Hand und rechts ein Roboter, der bei einer Erste-Hilfe-Maßnahme steht Kit. Die ganze Szene war surreal.“

Das von Flux generierte Bild kommt der Beschreibung am nächsten, es platziert alle Elemente dort, wo sie sein müssen. Die Gesamtkomposition ist ausgewogen, die Gestaltung jedes Elements und der retrofuturistische Stil entsprechen den Anforderungen des Surrealismus. Es weist aber auch einige Mängel auf, wie zum Beispiel, dass der Charakter eine zusätzliche Hand hat. SD3 Medium belegte den zweiten Platz. Das Gesamtdesign erfüllte auch die Anforderungen an die Textbeschreibung, es mangelte jedoch an Genauigkeit. Beispielsweise sollte der Hund im Cartoon-Stil stehen. Auraflow weist Lücken in der Genauigkeit des Textverständnisses und der Qualität der präsentierten Bilder auf.

Tipp drei lautet: „Ein hochauflösendes Foto einer belebten Stadtstraße bei Nacht. Neonlichter erhellen die Szene. Menschen gehen den Bürgersteig entlang, Autos fahren vorbei und Straßenverkäufer verkaufen Hotdogs. Die Lichter spiegeln sich auf der rutschigen Straße.“ Gesamtstil. Hyperrealistisch, Liebe zum Detail und Beleuchtung, auf der Leuchtreklame steht „Entschlüsselt“. Dieser Tipp konzentriert sich auf die Sicht der großen Bildgeneratoren auf Realismus.

Das von Flux erzeugte Bild ist detailreich und gut beleuchtet. Das Bild zeigt die belebte Straße gut, mit klaren Schlüsselschildern und lebendigen Bildern von Fußgängern. Auch SD3 kann eine ausgewogene Komposition, realistische Beleuchtung und sorgfältig integrierte Elemente zeigen, die Darstellung von Fußgängern fällt allerdings etwas dürftig aus.

Schließlich bewertete auch das ausländische Medium Decrypt Flux und Midjourney zweimal und beurteilte Flux schließlich als stärker.

Die erste Textaufforderung lautet: „Ein Schwarz-Weiß-Foto einer Frau mit langen glatten Haaren, die auf dem Boden vor einem modernen Sofa sitzt und ein komplett schwarzes Outfit trägt, das ihre Kurven hervorhebt. Sie blickt selbstbewusst in die Kamera und posiert, sie.“ Ihre schlanken Beine sind entblößt, als sie vor einem minimalistischen Hintergrund kauerte, der ihre elegante Pose betonte. Fotografiert von Peter Lindbergh mit einem Hasselblad X2D 105-mm-Objektiv bei Blendenzahl f/4 für eine verbesserte visuelle Attraktivität.“

Decrypt ist davon überzeugt, dass Flux die Anforderungen der Eingabeaufforderung mit natürlichen Posen, kontextbezogenen Hintergründen und detaillierter Darstellung erfasst. Morphologisch gesehen ist es das genaueste. Midjourney zeigt lebendige Bilder und reichhaltige Details in den Bildern, es fehlt jedoch die Bildschichtung wie bei Flux, und die Darstellung der Körperhaltung ist nicht so genau wie bei Flux.

Die zweite Textaufforderung lautete: „Ganzkörperaufnahme einer weißen Katze, die Klavier spielt, Sonnenbrille und Hut trägt und ein lila hawaiianisches Outfit vor einem grauen Studiohintergrund trägt, für kommerzielle Nutzung.“

Decrypt ist davon überzeugt, dass Flux die Anforderungen eines Ganzkörperfotos, eines grauen Studiohintergrunds und einer bestimmten Kleidung erfüllt. Die Komposition ist professionell und exquisit und erfüllt die sofortigen Anforderungen vollständig. Midjourney ermöglicht Nahaufnahmen und das Bild ist ausdrucksstark, wird aber den Anforderungen von Ganzkörperaufnahmen und Studiohintergründen nicht gerecht.

Es ist ersichtlich, dass Flux in Bezug auf Fotodetails und Verständnis für Raum und Stilisierung an der Spitze der Branche steht. Es kann mit Midjourney mithalten und ist in einigen Aspekten sogar besser als Midjourney.

03

Willst du Midjourney ficken?

Der Schwarzwald muss noch kommerzialisiert werden

Man kann sagen, dass das Gebiet der KI Wenshengtu im Moment istGenerative KIEiner der heißesten Tracks der Branche. Derzeit haben Google, Meta und OpenAI dieses Feld im Auge. Die von FLUX.1 demonstrierten Fähigkeiten haben viele Menschen zu der Erwartung geführt, dass es sich um das nächste Midjourney handelt.

Aber der Schlüssel zum nächsten Midjourney liegt in der Kommerzialisierung.

Der Basisplan von Midjourney, dem Pionier in diesem Bereich, kostet 96 US-Dollar pro Jahr und kann etwa 200 Bilder pro Monat generieren, was 25 Bildern pro Dollar entspricht. Der Basisplan von Ideogram kostet 84 US-Dollar pro Jahr und kann bis zu 400 Bilder pro Monat oder 50 Bilder pro Dollar generieren.

Black Forest ist eine Partnerschaft mit Fal AI, dem Entwickler des Open-Source-Modells Auraflow, eingegangen, um die Cloud-Generierung zu unterstützen. Diese Modelle stehen auch zum kostenlosen Testen auf Replicate.com zur Verfügung. Sobald Benutzer ihr kostenloses Tageskontingent erreicht haben, können sie das Flux Pro-Modell verwenden, um 33 Bilder für 1 US-Dollar zu generieren, oder Flux Schell verwenden, um 333 Bilder für 1 US-Dollar zu generieren.

Im Vergleich zu Midjourney und Ideogram bietet Black Forest Benutzern mehr Auswahlmöglichkeiten. Dies stellt jedoch nicht den kommerziellen Erfolg von Black Forest dar. Die Kosten für die Aufrechterhaltung eines generativen KI-Modells sind sehr hoch. Nehmen wir als Beispiel Stability AI: Laut Forbes gibt Stability AI etwa 8 Millionen US-Dollar pro Monat für Kosten und Löhne aus, aber der Umsatz beträgt nur 1,2 Millionen US-Dollar, was die Kosten bei weitem nicht deckt. Heutzutage ist die Kommerzialisierung auch für Ideogram und Pika Labs AI zu einer „festgefahrenen“ Verbindung geworden.

Um Midjourney wirklich zu übertreffen, wird die Art und Weise, wie Black Forest Einnahmen und Ausgaben in Einklang bringt, der Schlüssel zu seiner Dominanz im großen KI-Modell von Vincentian sein.

04

In weniger als einem halben Monat Ihrer ursprünglichen Absicht widersprechen?

Black Forest hat in Vincent Figure eine zwiespältige Einstellung zur Sicherheit

Black Forest Labs und Musk scheinen sich über die Entwicklung eines „Anti-Erwachen-KI-Chatbots“ einig zu sein und wollen der KI nicht zu viele Einschränkungen auferlegen.

Der „Anti-Erwacht-KI-Chatbot“ bezieht sich hier auf einen KI-Chatbot, der es bewusst vermeidet, bestimmte politisch korrekte oder gesellschaftlich aufgeweckte Ansichten zu übernehmen, und kontroverse Themen nicht herausfiltert, wenn er damit konfrontiert wird. Grok ist offensichtlich der Träger von Musks „Anti-Erwachen-KI-Chatbot“-Konzept.

In Bezug auf die Sicherheitsbewertung hat Grok zwar seine sechs „Verbote“ erwähnt, darunter Inhaltsbeschränkungen, Urheberrecht, Bildverarbeitungskomplexität usw., den generierten Fotos nach zu urteilen, hat Grok jedoch fast keine Tabus, einschließlich Prominente, Pornografie, Gewalt, usw. Generierte Bilder sind auf der sozialen Plattform X populär geworden.

Obwohl mehrere Regulierungsbehörden ihre Unzufriedenheit mit Social Platform X zum Ausdruck gebracht haben, scheint Musk immer noch unbeeindruckt zu sein. Nach der Veröffentlichung von Grok-2 erlaubte Musk Benutzern auch, von Grok generierte KI-Bilder direkt auf der Plattform zu veröffentlichen, ohne dass KI-generierte oder von Grok generierte Wasserzeichenaufforderungen erforderlich waren.

Musk erwähnte 2022 auf der sozialen Plattform X, dass die Festlegung von Grenzen für KI die Sicherheit des KI-Modells verringern würde. „Das Training von KI ist leicht aufzuwecken. Mit anderen Worten, die Gefahr des (KI-)Lügens ist fatal.“ Einige Medien spekulierten, dass das Modell der FLUX.1-Serie möglicherweise nicht zu viele Einschränkungen auferlegte, die Musk dazu veranlassten, sich für Grok zu entscheiden Betreten Sie die Modelle der FLUX.1-Serie.

entsprechendDer RandNach Einschätzung vieler Medien weigerten sich auch Googles ähnliches Bild-KI-Modell Imagen und OpenAIs DALL·E 3, prompte Wörter mit „gefährlichen Obertönen“ zu generieren, doch Grok reagierte schnell und generierte schnell Bilder.

Erst vor einem halben Monat gab Black Forest Labs bei seiner Gründung bekannt, dass das Ziel des Unternehmens darin bestehe, „das Vertrauen der Menschen in die Sicherheit dieser Modelle zu stärken“. Einen halben Monat später stellten sich Black Forest Labs und Musk auf die Seite von „Keine Beschränkungen für KI“ und öffneten die Blackbox des vinzentinischen KI-Modells.

Angesichts zahlreicher Kontroversen vermeidet Black Forest Labs nun, darüber zu sprechen, und versucht, den Schwerpunkt der Diskussion in andere Richtungen zu lenken. Dessen Vorstandsmitglied Anjney Midha kritisierte Google am 14. August auf der sozialen Plattform X ZwillingeBei der ersten Veröffentlichung gab es versteckte Rassendiskriminierung und andere Situationen im Bereich der vinzentinischen Grafik, und es wurde angegeben, dass solche Situationen bei den Modellen der FLUX.1-Serie nicht auftreten würden.

Wir können sehen, dass die Modelle der FLUX.1-Serie in Bezug auf die Fähigkeiten des Vincentschen Graphen tatsächlich leistungsstark sind und bereits mit Midjourney konkurrieren können. Aber in puncto Sicherheit scheinen Black Forest Labs einen anderen Weg eingeschlagen zu haben als andere Spieler auf der gleichen Strecke.

Wird Black Forest Labs durch die Tatsache, dass keine Sicherheitsleitplanken aufgestellt werden, zum absolut dominierenden Akteur auf dem Gebiet der vinzentinischen Grafik? Oder zerstört es auf einen Schlag die neue Beliebtheit der Modelle der FLUX.1-Serie? Wir werden sehen.