2024-08-25
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
KI-Kreis, wieder Open-Book-Bildgenerierung.
Eine Reihe von Entwicklungen zusammengefasst:
21. August,Ideogram veröffentlicht offiziell Version 2.0und behauptet, über stärkere Fähigkeiten zur Textwiedergabe zu verfügen.
Richtig, es ist das Projekt, das im August letzten Jahres von den vier großen Jungs von Google AI Painting gegründet wurde, die gemeinsam ihre Jobs aufgegeben haben, um ein Unternehmen zu gründen. Es hat Investitionen von einer Reihe großer KI-Leute erhalten.
Diesmal auch IdeogrammOffene Herausforderung für FluxDer Beamte gab zuversichtlich an, dass die menschliche Bewertung deutlich besser sei als die von Flux Pro.
Wissen Sie, Flux wurde vom ursprünglichen Team von Stable Diffusion entwickelt und erfreut sich in letzter Zeit bei großen Netzwerken großer Beliebtheit, da es „Fotos“ von TED-Vorträgen erstellt, die wie echte Vorträge aussehen.
Darüber hinaus hat Google vor einer Woche offiziell veröffentlichtBild 3In offiziellen Bewertungen wird behauptet, dass es besser abschneidet als DALL-E 3, Midjourney v6, Stable Diffusion 3 und andere Zeichenmodelle.
Möglicherweise aufgrund der Stimulation (Doge) wurde auch Midjourney umgestellt und am 22. August direkt für alle Benutzer eingeführt.Kostenlose Webversion。
Da gibt es jetzt was Gutes zu sehen!
Da jeder behauptet, stark zu sein, könnten wir genauso gut alle an einen Tisch bringen und eine persönliche PK veranstalten.
Wer ist die stärkste Zeichen-KI?
Laden wir zunächst unsere 4 Teilnehmer ein (alle nutzen die Webversion):
Teilnehmer Nr. 1: Ideogramm 2.0.Es gibt jeden Tag 10 Punkte kostenlos, mit 1 Punkt können 4 Bilder generiert werden und es können maximal 40 Bilder pro Tag generiert werden.
Spieler Nr. 2: Flux.1.Black Forest bietet offiziell eine kostenlose Demo zu Hugging Chat an (wählen Sie die FLUX.1 Schnell-Version);
Teilnehmer Nr. 3: Bild 3.Kostenlose und unbegrenzte Nutzung von Image FX;
Spieler Nr. 4: Midjourney.Während des kostenlosen Testzeitraums haben Sie lediglich die Möglichkeit, insgesamt 25 Bilder zu generieren;
Nun geht es offiziell in die Wettbewerbsphase.
Die schwarzen Affen kippten alle um
Erstens, um diese ausländische KI zu testenVerstehen Sie chinesische Aufforderungswörter?Nutzen wir auch die Beliebtheit der heutigen Top-Schwarzaffen.
Eingabeaufforderung: Der Spielcharakter ist ein Affe, der eine Rüstung trägt, eine goldene Krone mit Phönixfedern auf dem Kopf trägt und einen goldenen Reifen in der Hand hält, der auf einer Klippe steht.
Wie erwartet kam es zu einem Unfall...
Ich glaube, das große rote Kreuz auf der Nr. 3 hat auf den ersten Blick alle angezogen. Das ist richtig, unter demselben Eingabeaufforderungswort gibt es nur Bild 3Build-Anfrage abgelehnt。
Als ich das sah, war meine erste Reaktion, ob unsere prompten Worte einen Urheberrechtsschutz auslösten. Also habe ich zunächst den „Spielcharakter“ im Aufforderungswort gelöscht, aber das Ergebnis war, dass die Erinnerung nicht generiert werden konnte.
Liegt es daran, dass Google Imagen 3 kein Chinesisch unterstützt? Also habe ich das Aufforderungswort zufällig in ein einfacheres geändert, und dieses Mal gab es ein Bild.
Es ist nur so, dass das Ergebnis ein großer Fehler war und mehrere chinesische Eingabeaufforderungswörter geändert wurden und am Ende alle irrelevante Texturbilder waren.
Es scheintGoogle Imagen 3 ist mit chinesischen Aufforderungswörtern tatsächlich nicht einverstanden。
Nachdem Nr. 3 in der Liste durchgefallen war, waren es nur noch die anderenNr. 1 Ideogram 2.0 schneidet am besten ab。
Nr. 2 kann immer noch den Schatten chinesischer Comics erkennen, aber Nr. 4 Midjourney hat sich völlig gehen lassen ~ (das Hauptthema hat überhaupt nichts damit zu tun)
Abschließend möchte ich Ideogram 2.0 dafür loben, dass es alle Schlüsselelemente genau trifft.
Obwohl es nicht das ist, was ich mir von Herzen wünsche (ich möchte Black Mythology), ist an der Wiederherstellung der prompten Worte wirklich nichts auszusetzen.
Ist es eine reale Person oder eine KI? Dumm, ich kann den Unterschied nicht erkennen
Als nächstes betreten Sie die Komfortzone jedes Spielers –Porträtgenerierung。
Damals wurde „Midjourney“ im Internet mit einem Foto eines Paares auf dem Dach populär, jetzt hat Flux das Internet mit einer Reihe von TED-Redebildern im Sturm erobert …
Wer ist besser? Die Antwort wird bald bekannt gegeben.
Eingabeaufforderung: Ein junger Mann mit rotbraunem Haar, der ein kariertes Hemd in Blaugrün und Creme trägt, aufgenommen mit einem 50-mm-Objektiv für einen Vintage-Look. Satte Farben, scharfer Fokus und ein Hauch von Retro-Charme.
Ein junger Mann mit kastanienbraunem Haar, der ein blaugrün-cremefarbenes kariertes Hemd trägt, aufgenommen mit einem 50-mm-Objektiv im Retro-Stil. Die Farben sind satt und der Fokus ist scharf mit einem Hauch von Vintage-Charme.
Wenn man sich zunächst die Nummern 2 und 4 anschaut, ist es offensichtlich, dass Midjourney gewonnen hat!
Blick auf die Details, Nr. 2Flux.1 ist leicht abweichendEs gibt zwei weitere Kleidungsfarben, die bei den blau-grün karierten Hemden besonders hervorstechen.
Darüber hinaus haben wir am Anfang auch Imagen 3 entdecktEin einzigartiges kleines Highlight: Kreisen Sie das Schlüsselwort ein, bevor die Generierung beginnt.
Mit der geleisteten Arbeit können wir einfach die Leistung mehrerer Spieler testen.Schlüsselelemente(Blaugrün kariertes Hemd, 50-mm-Objektiv usw.).
Es ist zu erkennen, dass mehrere Spieler insgesamt eine gute Leistung gezeigt haben (außer Nr. 2), mit einem hohen Grad an Restaurierung und alle mit Blick auf die Kamera.
Und wenn diese nicht von mir selbst mithilfe von KI generiert würden, wäre ich nicht in der Lage, den Unterschied zu echten Menschen sofort zu erkennen. (Beschämt)
Abschließend möchte ich ruhig sagen, dass Kandidatin Nr. 4, Midjourney, das beste Aussehen hat.
Große Schwierigkeit: Bildanzeigetext
Nachdem wir alle erfolgreich getäuscht haben, ist es an der Zeit, die KI ein wenig leiden zu lassen –
Fügen Sie Text zu Bildern hinzu。
Diese Angelegenheit war schon immer ein Problem und hat sich auch zu einem der Standards zum Testen des KI-Zeichnungsniveaus entwickelt.
Lassen wir ohne weitere Umschweife ein paar Teilnehmer eine exquisite Werbetafel anfertigen. Alle Leser, bitte bringen Sie Ihre eigene Rolle als Vater von Partei A mit.
Eingabeaufforderung: Ein horizontales Messingschild mit der Aufschrift „Festive Season“ in stilvoller Schrift, umgeben von Kiefern und Stechpalmen auf einem dunklen Holzhintergrund, mit einer Nahaufnahme der goldenen Schrift.
Ein horizontales Messingschild mit der Aufschrift „Festive Season“ in stilvoller Schrift ist von Tannenzweigen und Stechpalmen vor einem dunklen Holzhintergrund umgeben, wobei eine Nahaufnahme den goldenen Schriftzug hervorhebt.
Sind sie auf den ersten Blick alle ziemlich gut? Es scheint, dass sie die prompten Worte weitgehend wiederhergestellt haben?
Sobald jedoch die scharfen Augen des Vaters von Partei A zum Vorschein kommen, kann Nr. 2 sie nicht mehr verbergen.
Pass auf, Nummer 2Flux.1 Ecken abschneidenIm Wort „Season“ fehlt der Buchstabe „S“.
Aber mit Ausnahme von Nr. 2 sind die anderen ziemlich gut. Es scheint, dass es verschiedenen KI-Unternehmen gut geht.TextwiedergabefunktionEs wurden alle Anstrengungen unternommen.
Der nächste Schritt besteht also darin, dass jeder seine eigenen Vorlieben für Radieschen und grünes Gemüse hat und jeder seine Wahl auf der Grundlage persönlicher Vorlieben trifft. (Persönlich für Midjourney gestimmt)
Übrigens hat No. 1 Ideogram in diesem Modell-Upgrade die Funktion „Textwiedergabe“ besonders gefördert. Vielleicht möchten Sie es noch einmal ausprobieren.
Beziehen Sie sich auf McDonald’s, den Sinn und Zweck der KI-Werbung
Kürzlich hat McDonald's 11 KI-Schönheiten angeheuert, um ihre Pommes Frites anzupreisen, was sie sehr beliebt gemacht hat~
Tatsächlich ist das Prinzip relativ einfach. Es besteht lediglich darin, mithilfe von KI Bilder verschiedener Charaktere zu erstellen, die für Pommes Frites werben, und diese dann zu einem Video zusammenzufügen.
Der Effekt war unerwarteterweise erstaunlich. Allein auf Twitter verzeichnete das entsprechende Video fast 10 Millionen Aufrufe.
Nachdem wir den Vermögenskodex beherrschten, begannen wir offiziell mit der Arbeit.KI hilft LandwirtenMan muss auf und ab gehen~
Aufforderung: Vor dem Hintergrund einer Metropole im Cyberpunk-Stil wirbt ein Mädchen mit in den Händen gehaltenen Bio-Agrarprodukten für den Anbau.
Vor einem städtischen Hintergrund im Cyberpunk-Stil wirbt ein Mädchen für die Bio-Produkte in ihren Händen.
Sehr gut, Spieler Nr. 3 ist erneut „durchgefallen“. Diese Welle ist jedoch wirklich rätselhaft. Die Aufforderungswörter sind weder auf Chinesisch noch in irgendetwas offensichtlich Verbotenem.
Nachdem Nr. 3 ausgeschieden war, brachte Teilnehmer Nr. 1 Ideogram 2.0 die größte Auswahl an Waren mit, darunter Chinakohl, Tomaten, Purpurkohl usw.
Und es ist der Einzige, der getippt hatTextzeichenIch bin hierher gekommen, um für Bio-Lebensmittel zu werben, und ich kann sehen, dass sie sehr hart arbeiten~
Wenn Sie genau hinsehen, können Sie außerdem erkennen, dass nur Nr. 1 sein Bestes versucht, die reale Person nachzuahmen, während Nr. 2 und Nr. 4 dies vollständig tunZweistachliger Affe。
u1s1, wenn man sich auf Maimais Werbestil bezieht, hat diese kurzfristige Generation nicht die gewünschte Wirkung erzielt. (Hoffentlich näher an der Realität)
Glücklicherweise sind diese KI-Tools derzeit kostenlos verfügbar. Es ist nicht unmöglich, sie mehrmals auszuprobieren. Der Fokus liegt immer noch auf der Methodik. 🐶
Gehen Sie nicht zu schnell weg, es gibt tatsächlich einen zuverlässigeren Weg, Geld zu verdienen——
Verwenden Sie KI, um Studioaufnahmen einfach zu steuernGeschäftsplakate, wäre es nicht schön, Geld für Fotografen, Veranstaltungsorte und Postproduktion zu sparen?
Ein schlanker Lippenstift glänzt vor einem Hintergrund aus Raffinesse und betont das satte Pigment und das sanfte Gleiten. Erwecken Sie Luxus mit scharfem Fokus und einem Hauch von Schimmer.
Eine elegante Lippenstifttube glänzt vor einem eleganten Hintergrund und unterstreicht die intensive Farbe und den sanften Auftrag. Erwecken Sie ein Gefühl von Luxus mit scharfem Fokus und einem Hauch von Schimmer.
Lassen Sie uns alle testen: Wenn Sie einen Lippenstift für eine Frau in Ihrer Nähe auswählen müssten, welchen würden Sie wählen? (Der Todestest kommt)
Hehe, hat sich schon mal jemand für Nr. 4 entschieden?
Obwohl die graue Farbe von No. 4 Midjourney sehr hochwertig aussieht, ist die schwarze Farbe möglicherweise eher eine Nische. (Wählen Sie sorgfältig aus)
Abgesehen davon sind die nächstbesten PerformerBild 3Der Samtstoff darunter vermittelt ein Gefühl von Luxus und vor allem ist die Textur des Lippenstifts sehr echt.
Im Vergleich dazu sehen sowohl Nr. 1 als auch Nr. 2 etwas künstlich aus und fühlen sich „plastisch“ an.
Somit hat insgesamt Spieler Nr. 3 diese Runde gewonnen.
Zusammenfassend lässt sich sagen, dass die Leistung der vier Spieler insgesamt sehr gut war. Unter den chinesischen Aufforderungswörtern schnitt der Dark-Horse-Spieler Ideogram 2.0 am besten ab.
Wer ist Ideogram?
Im Februar dieses Jahres brachte Ideogram Version 1.0 auf den Markt. In nur einem halben Jahr entwickelte es sich weiter und brachte Version 2.0 auf den Markt.
Tatsächlich sind Ideogram und Google eng miteinander verbunden.
Im August letzten Jahres wurden die ersten vier Mitglieder des Gründerteams gegründetAutor eines Imagen-Artikels über Google Vincentian Graph Research。
CEO Mohammad Norouzi, Co-Autor der Arbeit, erhielt das Google ML-Doktorandenstipendium während seines Doktoratsstudiums in Informatik an der University of Toronto.
Nach seinem Abschluss wechselte er zu Google Brain und arbeitete sieben Jahre lang bis zum leitenden ForschungswissenschaftlerModell generieren。
Darüber hinaus ist er Gründungsmitglied des Google Neural Machine Translation-Teams und Co-Autor des selbstüberwachten kontrastiven Lernrahmens SimCLR des Hinton-Teams.
Technischer Leiter William Chan(Chen Junle), Co-Autor des Artikels, studierte an der University of Waterloo und der Carnegie Mellon University in Kanada.
Als er 2012 zu Google kam, arbeitete er zunächst an Werbeprojekten für maschinelles Lernen und wechselte dann zu Google Brain, um NLP-Forschung zu betreiben.
Mitbegründer Jonathan Ho, schloss sein Studium an der UC Berkeley mit einem Ph.D. ab, arbeitete ein Jahr lang bei OpenAI und kam dann zu Google.
Er war nicht nur einer der Hauptautoren des Imagen-Artikels, sondern legte auch den Grundstein für das Entrauschungsdiffusionsmodell.《Rauschunterdrückung bei probabilistischen Diffusionsmodellen》Pieter Abbeel, einer der Co-Autoren dieses Papiers, ist auch ein Investor in Ideogram AI.
Mitbegründer Chitwan Saharia, Co-Autor des Artikels, schloss sein Bachelor-Studium am Bombay Institute of Technology ab. Er kam 2019 zu Google, wo er hauptsächlich für die Leitung der Arbeit am Bild-zu-Bild-Diffusionsmodell verantwortlich ist.
Die anderen drei Leute im Gründungsteam,Shayaan AbdullahEr war Ingenieur für maschinelles Lernen bei Twitter. Er gab seinen Job im April letzten Jahres auf und wechselte später zu Ideogram AI.
Jacob LuAls Softwareentwickler arbeitete er in Unternehmen wie Amazon, bevor er zu Ideogram kam;Jenny LeiIch bin Praktikant im Software-Engineering und habe ein Praktikum bei Google absolviert, bevor ich zu Ideogram AI kam.
Es ist ersichtlich, dass Ideogram aus Top-Diffusionsmodell-Forschungsteams besteht und seit seiner Gründung Kapitalvorteile erhalten hat.
Die Seed-Runde von Ideogram wurde finanziert vona16zUndIndex VenturesLeitete die Investition mit einem Betrag von 16,5 Millionen US-Dollar (damals etwa 120 Millionen RMB).
Es gibt auch Einzelinvestoren wie Andrej Karpathy, Reinforcement-Learning-Guru Pieter Abbeel und GitHub-Mitbegründer Tom Preston-Werner.
Darüber hinaus berichteten mehrere Quellen im Februar dieses Jahres, dass Ideogram dies getan habeNeue Finanzierungsrunde。
Berichten zufolge erfolgreich erhoben80 Millionen US-Dollar(ungefähr 5,7 Milliarden Yuan) Serie-A-Finanzierung unter der Leitung von Andreessen Horowitz. Weitere beteiligte Investoren sind Index Ventures, Redpoint Ventures, Pear VC und SV Angel.
Es scheint, dass Ideogram, das über Geld und Technologie verfügt, zweifellos ein dunkles Pferd auf dem Gebiet der KI-Kartierung ist.
Rollen, weiterrollen.