minimax hielt seine erste partner day-konferenz ab und veröffentlichte die video- und musikgeneration models

minimax veranstaltete seine erste partner day-konferenz und veröffentlichte modelle zur video- und musikgenerierung

2024-09-01

01:55

in einer live-show, die technologie und musik vereint, startete am 31. august die erste entwicklerkonferenz des ki-einhorn-unternehmens minimax shanghai xiyu technology co., ltd. (im folgenden als minimax bezeichnet) – „minimaxlink partner day“. am selben tag veröffentlichte minimax offiziell das video model-video-01 und das musikmodell music-01.

multimodale modelle sind für große modellunternehmen zu einer frage geworden, die unbedingt beantwortet werden muss. unter diesen ist die videomodellinvolution am offensichtlichsten. viele ki-unternehmen haben früher große modellvideos veröffentlicht, darunter das von zhipu ai eingeführte videogenerierungsmodell „qingying“, ai pixverse v2 von shi technology, vidu von shengshu technology, „keling ai“ von kuaishou usw.

01:55

die entwicklung multimodaler modelle ist erst der anfang

es versteht sich, dass sich das von minimax veröffentlichte video-01 diesmal auf die generierung nativer videos mit hoher auflösung und hoher bildrate konzentriert. benutzer können sich auf der offiziellen website von minimax anmelden erleben sie das produkt.

minimax veröffentlicht offiziell das videomodell – video-01

nach der bewertung des videomodells video-01 sagte ein produktdesigner: „der gesamteffekt ist sehr gut, mit korrekter physik, gutem dynamikumfang und stabilität, und die reaktion auf science-fiction- und fantasy-konzepte ist relativ genau, aber das plastische gefühl ist es.“ schwer die ästhetische leistung ist relativ schlecht, die bildqualität und die bilddetails sind schlecht.“

in diesem zusammenhang sagte yan junjie, gründer und ceo von minimax, dass derzeit nur die erste version des produkts ausgestellt sei und in zukunft schrittweise aktualisierte versionen auf den markt kommen würden.

aus diesem grund wird das videomodell den benutzern für einen bestimmten zeitraum kostenlos zur verfügung gestellt, bis das produkt in einen zufriedenstellenden zustand gebracht wurde. „die zukünftige kommerzialisierung gliedert sich hauptsächlich in zwei formen. die eine basiert auf der offenen plattform des unternehmens und den mehr als 2.000 kundenpartnern, die auch bereit sind, spracherkennungsfunktionen zu nutzen es wurden eigene erkennungsfunktionen in produkte eingeführt.“

berichten zufolge umfassen die aktuellen multimodalen modellmatrixprodukte von minimax auch music-01, ein multifunktionales end-to-end-musikgenerierungsmodell, speech-01, ein generatives sprachsynthesemodell der neuen generation usw. „das ist erst der anfang. wir werden die modellgeschwindigkeit und -wirkung weiter verbessern und weitere entsprechende produkte herausbringen“, sagte yan junjie.

der schlüssel zur verbesserung der modellleistung

„als technologieunternehmen ist technologie immer das kernelement.“ yan junjie sagte, dass der fokus von minimax derzeit nicht auf der kommerzialisierung liegt.

yan junjie sagte, dass das modell von minimax derzeit mehr als 3 milliarden kundeninteraktionen abwickelt. vor einem jahr betrug die minimax-interaktionszeit nur 3 % der chatgpt; jetzt ist dieser anteil auf 53 % gestiegen, aber dennoch haben die verbundenen benutzer nicht 1 % der weltbevölkerung erreicht; um von 1 % auf 100 % zu wachsen, ist es am wichtigsten, die durchdringungsrate und die nutzungstiefe von ki-produkten bei den nutzern zu erhöhen.

minimax-benutzerinteraktionsdaten

es gibt viele technische schwierigkeiten, die überwunden werden müssen. darunter sind die drei wichtigsten optimierungsrichtungen: wie man die fehlerrate des modells kontinuierlich reduziert, unendliche eingabe und ausgabe und multimodalität. „es ist nicht schwer, aus dem leben herauszufinden, dass textinteraktion nur einen kleinen teil ausmacht und mehr sprach- und videointeraktion ist. multimodale inhalte wie ton, grafik, text und video sind zum mainstream der informationsübertragung geworden.“ um die penetrationsgeschwindigkeit zu verbessern, ist multimodalität der einzige weg.“ yan junjie sagte, dass „geschwindigkeit“ das zentrale technologische forschungs- und entwicklungsziel des zugrunde liegenden großen modells von minimax sei, um diese schwierigkeiten zu überwinden. „von zwei modellen mit ähnlicher leistung kann dasjenige mit schnellerem training und inferenz die rechenressourcen effektiver nutzen, um mehr daten zu iterieren, und verfügt dadurch über eine bessere modellfähigkeit.“

berichten zufolge hat minimax in der vergangenheit zwei wichtige zugrunde liegende technologieänderungen erlebt, darunter moe (mixed expert architecture) und linear attention (linear attention). im april dieses jahres entwickelte das unternehmen ein modell der neuen generation auf basis von moe+ linear attention, das als mit dem niveau von gpt-4o vergleichbar gilt. bei der verarbeitung von 100.000 token kann die verarbeitungseffizienz des neuen modells um das zwei- bis dreifache verbessert werden, und mit zunehmender länge nimmt die effizienz des modells deutlicher zu.

es wird davon ausgegangen, dass die textmodelle der abab7-serie mit technologie der neuen generation in den nächsten wochen offiziell veröffentlicht werden.

aus öffentlichen berichten geht hervor, dass minimax, das im dezember 2021 gegründet wurde, zuvor drei finanzierungsrunden abgeschlossen hat, darunter tencent, mihoyo usw., und dass seine aktuelle bewertung 2,5 milliarden us-dollar übersteigt.

der paper-reporter yu yan und der praktikant wang chun

(dieser artikel stammt von the paper. für weitere originalinformationen laden sie bitte die „the paper“-app herunter.)

bericht/feedback

nachricht

minimax veranstaltete seine erste partner day-konferenz und veröffentlichte modelle zur video- und musikgenerierung

einführung

meine kontaktdaten