minimax piti ensimmäisen partner day -konferenssinsa ja julkaisi videon ja musiikin sukupolven mallit

minimax piti ensimmäisen partner day -konferenssinsa ja julkaisi videon ja musiikin sukupolvimalleja

2024-09-01

01:55

teknologiaa ja musiikkia yhdistävässä live-esityksessä 31. elokuuta käynnistyi ai-unicorn-yhtiön minimax shanghai xiyu technology co., ltd.:n (jäljempänä minimax) ensimmäinen kehittäjäkonferenssi - "minimaxlink partner day". samana päivänä minimax julkaisi virallisesti videomallin-video-01 ja musiikkimallin music-01.

multimodaalisista malleista on tullut pakollinen vastaus suurille malliyrityksille, joista ilmeisin on videomallien involuutio. monet tekoälyyritykset ovat julkaisseet aiemmin suuria mallivideoita, mukaan lukien zhipu ai:n lanseeraama videosukupolvimalli "qingying", ai pixverse v2. shi technologylta, vidu shengshu technologylta, "keling ai" kuaishousta jne.

01:55

multimodaalisten mallien laatiminen on vasta alkua

on selvää, että minimaxin tällä kertaa julkaisema video-01 keskittyy luomaan korkearesoluutioisia ja korkean kuvanopeuden videoita kokea tuotteen.

minimax julkaisee virallisesti videomallin - video-01

arvioituaan videomallin video-01 tuotesuunnittelija sanoi: "yleisvaikutelma on erittäin hyvä, oikeanlainen fysiikka, hyvä dynaaminen alue ja vakaus, ja vastaus tieteis- ja fantasiakonsepteihin on suhteellisen tarkka, mutta muovinen tuntu on raskas esteettinen suorituskyky on suhteellisen huono, kuvanlaatu ja kuvan yksityiskohdat ovat huonoja.

tältä osin minimaxin perustaja ja toimitusjohtaja yan junjie sanoi, että tällä hetkellä esillä oleva versio on vasta tuotteen ensimmäinen versio, ja päivitetyt versiot julkaistaan asteittain tulevaisuudessa.

tästä syystä videomalli tarjotaan käyttäjille maksutta tietyn ajan. kaupallistamista ei harkita ennen kuin tuote on päivitetty tyydyttävään tilaan. ”tulevaisuuden kaupallistaminen jakautuu pääosin kahteen muotoon, joka perustuu yhtiön avoimeen alustaan ja yli 2 000 asiakaskumppanuuteen tuotteisiin on otettu käyttöön mainontamekanismit.

raporttien mukaan minimaxin nykyisiin multimodaalimatriisituotteisiin kuuluvat myös musiikki-01, monitoiminen päästä päähän -musiikin sukupolvimalli, puhe-01, uuden sukupolven generatiivisen puhesynteesimalli jne. "tämä on vasta alkua. jatkamme mallin nopeuden ja vaikutuksen parantamista ja julkaisemme vastaavia tuotteita yan junjie."

avain mallin suorituskyvyn parantamiseen

"teknologiayrityksenä teknologia on aina ydinelementti, yan junjie sanoi, että minimax ei tässä vaiheessa keskity kaupallistamiseen.

yan junjie sanoi, että minimaxin malli käsittelee tällä hetkellä yli 3 miljardia asiakasvuorovaikutusta. vuosi sitten minimaxin vuorovaikutusaika oli vain 3 % chatgpt:stä, mutta nyt tämä osuus on kasvanut 53 prosenttiin, mutta siitä huolimatta käyttäjien osuus maailman väestöstä on vain 0,8 %. kasvataksemme 1 %:sta 100 %:iin tärkeintä on lisätä tekoälytuotteiden levinneisyyttä ja käyttösyvyyttä käyttäjien keskuudessa.

minimax-käyttäjän vuorovaikutustiedot

on monia teknisiä vaikeuksia, jotka on voitettava. niiden joukossa kolme tärkeintä optimointisuuntaa ovat: kuinka jatkuvasti pienennetään mallin virhesuhdetta, ääretön syöttö ja tulos sekä multimodaalisuus. "elämästä ei ole vaikeaa huomata, että tekstin vuorovaikutus on vain pieni osa, ja enemmän on puheen ja videon vuorovaikutusta. multimodaalista sisällöstä, kuten äänestä, grafiikoista, tekstistä ja videosta, on tullut tiedonsiirron valtavirta. leviämisen parantamiseksi nopeus, multimodaalisuus on ainoa tapa edetä." yan junjie sanoi, että näiden vaikeuksien voittamiseksi "nopeus" on minimaxin taustalla olevan suuren mallin ydinteknologian tutkimus- ja kehitystavoite. "kahden mallin joukossa, joilla on samanlainen suorituskyky, nopeamman harjoittelun ja päättelyn omaava malli voi käyttää laskentaresursseja tehokkaammin iteroidakseen enemmän tietoa, mikä antaa paremman mallin."

raporttien mukaan minimax on kokenut kaksi keskeistä taustalla olevaa teknologiamuutosta aiemmin, mukaan lukien moe (mixed expert architecture) ja linear attention (linear attention). tämän vuoden huhtikuussa yhtiö kehitti uuden sukupolven mallin, joka perustuu moe+ linear attentioniin, jonka katsotaan olevan verrattavissa gpt-4o:n tasoon. käsiteltäessä 100 000 merkkiä uuden mallin käsittelytehokkuutta voidaan parantaa jopa 2-3 kertaa ja pituuden kasvaessa mallin tehokkuus kasvaa selvemmin.

on selvää, että uuden sukupolven tekniikkaa käyttävät abab7-sarjan tekstimallit julkaistaan virallisesti lähiviikkoina.

julkiset raportit osoittavat, että joulukuussa 2021 perustettu minimax on aiemmin suorittanut kolme rahoituskierrosta. sijoittajat ovat muun muassa tencent, mihoyo, ja sen nykyinen arvo on ylittänyt 2,5 miljardia dollaria.

paperin toimittaja yu yan ja harjoittelija wang chun

(tämä artikkeli on the paperista. jos haluat lisätietoja, lataa "the paper" -sovellus)

raportti/palaute

uutiset

minimax piti ensimmäisen partner day -konferenssinsa ja julkaisi videon ja musiikin sukupolvimalleja

johdanto

yhteystietoni