uutiset

Tekoäly tuottaa kuvia nopeammin ja ymmärtää ajatuksesi paremmin. Mitä teknisiä salaisuuksia upea Vincent-kuvamalli on kehittänyt?

2024-08-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Suurten mallien lanseerauksen ja kiihdytinpainikkeen painamisen myötä Vincentin kaaviot ovat epäilemättä yksi kuumimmista sovellussuunnista.

Stable Diffusionin syntymästä lähtien on ollut loputon virta suuria Vincentiläisten hahmojen malleja kotimaassa ja ulkomailla, ja se tuntui jonkin aikaa "taistelulta jumalien välillä". Vain muutamassa kuukaudessa "The Strongest AI Artist" -titteli on vaihtanut omistajaa useita kertoja. Jokainen teknologinen iteraatio työntää edelleen tekoälykuvan laadun ja nopeuden ylärajaa.

Joten nyt voimme saada minkä tahansa kuvan kirjoittamalla muutaman sanan. Olipa kyseessä ammattitason mainosjuliste tai hyperrealistinen valokuva, AI-kartoituksen uskollisuus on hämmästyttänyt meidät. Tekoäly voitti jopa 2023 Sony World Photography Award -palkinnon. Ennen pääpalkinnon julkistamista tämä "valokuva" oli ollut esillä Somerset Housessa Lontoossa - jos kirjoittaja ei paljastanut sitä julkisesti, kukaan ei ehkä saa tietää, että valokuva oli todella tekoälyn luoma.



Eldagse ja hänen tekoälyn luoma työ "Sähkötyöntekijä"

Tekoälyteknikkojen sinnikkistä ponnisteluista ei voi erottaa tekoälyn piirtämien kuvien kaunistamista."AIGC Experience Schoolin" kuudes numero kutsui Doubao Vincent Chartin teknisen asiantuntijan Li Liangin ja NVIDIA-ratkaisuarkkitehti Zhao Yijiaan tarjoamaan meille perusteellisen analyysin Vincent Chart -mallin taustalla olevasta tekniikasta, jotta voimme tuottaa kauniimpia, nopeampia kuvia, ja ymmärtää paremmin käyttäjän mielen.

Suoran lähetyksen alussa Li Liang käsitteli ensin yksityiskohtaisesti viimeaikaisen "huipputason" kotimaisen suuren mallin - ByteDance Doubao -suurmallin Vincent-kaaviomallin teknistä päivitystä.

Li Liang sanoi, että ongelmat, joita Doubao-tiimi haluaa ratkaista, sisältävät pääasiassa kolme näkökohtaa: ensinnäkin, kuinka saada aikaan vahvempi kuvan ja tekstin yhteensopivuus vastaamaan käyttäjän idean suunnittelua, toiseksi kuinka luoda kauniimpia kuvia, jotta käyttäjäkokemus olisi parempi; kolmas on se, kuinka tuottaa kaavioita nopeammin, jotta voidaan vastata erittäin suuriin palvelupyyntöihin.

Mitä tulee kuvien ja tekstin yhteensovittamiseen, Doubao-tiimi aloitti tiedoilla, tarkensi ja suodatti massiivisen kuva- ja tekstidatan ja tallensi lopulta satoja miljardeja korkealaatuisia kuvia tietokantaan. Lisäksi tiimi koulutti erityisesti multimodaalisen suuren kielimallin recapiton-tehtävää varten. Tämä malli kuvaa kattavammin ja objektiivisemmin kuvien fyysisiä suhteita.



Korkealaatuisen ja yksityiskohtaisen kuva- ja tekstidatan jälkeen, jos haluat hyödyntää mallin vahvuutta paremmin, sinun on parannettava tekstin ymmärtämismoduulin kykyä. Tiimi käyttää natiivia kaksikielistä isokielimallia tekstikooderina, mikä parantaa merkittävästi mallin kykyä ymmärtää kiinaa. Siksi kansallisten elementtien, kuten "Tang-dynastian" ja "lyhtyjuhla", edessä Doubao- ja Vincentin kaaviomallit. osoittavat myös syvällisempää ymmärrystä.



Diffsuion-malliarkkitehtuuriin Doubao-tiimi lisäsi myös ainutlaatuisia salaisuuksia. He käyttivät UNetiä tehokkaaseen skaalaukseen. .



Selvimmän esteettisen tyylin saamiseksi, jonka käyttäjät intuitiivisesti tuntevat, Doubao-tiimi on ottanut käyttöön ammattimaista esteettistä ohjausta ja kiinnittää aina huomiota käyttäjien ja yleisön esteettisiin mieltymyksiin. Samaan aikaan tiimi työskenteli kovasti myös data- ja malliarkkitehtuuriin. Usein käyttäjän saamien kuvien ja esittelynäytön välinen vertailu on kuin "ostajaesitys" ja "myyjäesitys". Itse asiassa annettu kehote ei ole tarpeeksi yksityiskohtainen ja selkeä mallille ja Doubao Vincent -kaaviolle malli esittelee "Rephraser", samalla kun se noudattaa käyttäjän alkuperäistä tarkoitusta, lisää yksityiskohtaisempia kuvauksia kehotteen sanoihin, jotta kaikki käyttäjät kokevat täydellisemmän sukupolven vaikutuksen.



Jotta malli tuottaisi nopeammin ja kuluttaisi vähemmän rahaa per kuva, Doubao-tiimi antoi myös uusia ongelmanratkaisuideoita mallin tislausmenetelmässä. Edustava saavutus on Hyber-SD, joka on uusi diffuusiomallitislaus kehys, joka ylläpitää lähes häviöttömän suorituskyvyn ja pakkaa kohinanvaimennusvaiheiden määrää.



Seuraavaksi NVIDIA-ratkaisuarkkitehti Zhao Yijia aloitti taustalla olevasta tekniikasta ja selitti Vincent Graphin kaksi yleisintä Unet-pohjaista SD- ja DIT-malliarkkitehtuuria ja niiden vastaavat ominaisuudet sekä esitteli NVIDIAn Tensorrt-, Tensorrt-LLM-, Triton-, How-työkalut, kuten Nemo. Megatron tarjoaa tukea mallien käyttöönotolle ja auttaa suuria malleja perustelemaan tehokkaammin.

Zhao Yijia jakoi ensin yksityiskohtaisen selvityksen Stable Diffusion -mallin periaatteista ja kehitti keskeisten komponenttien, kuten Clipin, VAE:n ja Unetin, toimintaperiaatteita. Kun Sora tuli suosituksi, siitä tuli myös suosittu DiT (Diffusion Transformer) -arkkitehtuurin takana. Zhao Yijia teki lisäksi kattavan vertailun SD:n ja DiT:n eduista kolmesta näkökulmasta: mallin rakenne, ominaisuudet ja virrankulutus.



Kun käytät Stable diffuusiota kuvien luomiseen, tunnet usein, että kehotesanojen sisältö näkyy luoduissa tuloksissa, mutta kuva ei ole sitä mitä haluat Tämä johtuu siitä, että tekstin hahmontamiseen perustuva vakaa diffuusio ei ole hyvä hallitsemaan yksityiskohtia kuvasta, kuten sommittelusta, liikkeestä, kasvojen piirteistä, tilasuhteista jne. Siksi tutkijat ovat stabiilin diffuusion toimintaperiaatteen pohjalta suunnitelleet monia ohjausmoduuleja kompensoimaan stabiilin diffuusion puutteita. Zhao Yijia lisäsi edustavan IP-sovittimen ja ControlNetin.



NVIDIAn teknisellä tuella on keskeinen rooli laskennallisesti intensiivisen Vincenti-kaaviomallin päätelmien nopeuttamiseksi. Zhao Yijia esitteli Nvidia TensorRT- ja TensorRT-LLM-työkalut, jotka optimoivat kuvan ja tekstin luontimallien päättelyprosessin korkean suorituskyvyn konvoluution, tehokkaan ajoituksen ja hajautetun käyttöönottotekniikan avulla. Samaan aikaan NVIDIAn Ada, Hopper ja tuleva BlackWell-laitteistoarkkitehtuuri tukevat jo FP8-koulutusta ja johtopäätöstä, mikä tuo mallikoulutukseen sujuvamman kokemuksen.



Kuuden upean suoran lähetyksen jälkeen Volcano Enginen, NVIDIAn ja CMO CLUBin yhdessä käynnistämä "AIGC Experience Party" sai onnistuneen päätökseen. Näiden kuuden ohjelman kautta uskon, että jokaisella on syvempi käsitys siitä, kuinka AIGC muuttuu "kiinnostavasta" "hyödylliseksi". Odotamme myös innolla, että "AIGC Experience School" ei jää vain ohjelman keskusteluun, vaan myös nopeuttaa älykkään uudistamisen prosessia markkinoinnin alalla käytännössä.

Tarkista kaikkien kuuden AIGC Experience Schoolin numeron osoite:https://vtizr.xetlk.com/s/7CjTy