uutiset

Mikä on FancyTechin tekninen polku johtamassa AIGC:n kaupallistamista "pystymallilla"?

2024-08-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Koneen sydän alkuperäinen

Machine Heart -toimitusosasto

Olemme todistamassa uutta teknologista innovaatiota Tällä kertaa AIGC tarjoaa yksilöille työkaluja itsensä ilmaisemiseen, mikä tekee luomisesta helpompaa ja suositumpaa, mutta sen taustalla oleva voima ei ole "iso" malli.

Kahden viime vuoden aikana AIGC-tekniikka on kehittynyt nopeammin kuin kukaan uskoi, ja se on tunkeutunut joka alalle tekstistä kuviin ja videoihin. Keskustelut AIGC:n kaupallistamispolusta eivät ole koskaan pysähtyneet. Niiden joukossa on yksimielisyyttä ja erilaisuutta.

Toisaalta yleisten mallien tehokkaat ominaisuudet ovat hämmästyttäviä ja osoittavat sovelluspotentiaalia eri toimialoilla. Erityisesti DiT:n ja VAR:n kaltaisten arkkitehtuurien käyttöönotto on mahdollistanut Scaling Lawn siirtymisen tekstistä visuaaliseen luomiseen. Tämän säännön ohjaamana monet suuret mallinvalmistajat jatkavat etenemistä koulutusdatan lisäämisen, laskentatehoinvestoinnin ja parametrien kertymisen suuntaan.

Toisaalta olemme myös nähneet, että universaali malli ei tarkoita "tappaa kaikki". Monien jaetun radan tehtävien edessä "hyvin koulutettu" pystymalli voi saavuttaa parempia tuloksia.

Suuren malliteknologian siirtyessä nopeutetun toteutuksen jaksoon, jälkimmäinen kaupallistamispolku on saanut nopeasti kasvavaa huomiota.

Tämän kehityksen aikana kiinalainen startup-yritys FancyTech erottui joukosta:Se on nopeasti laajentanut markkinoita standardoiduilla tuotteilla kaupallisen visuaalisen sisällön tuottamiseen, ja se on vahvistanut "pystymallin" paremmuuden teollisella toteutustasolla aikaisemmin kuin muut.

Kotimaista suurmalliyrittäjäpiiriä katsellen FancyTechin kaupallistamisennätys on ilmeinen kaikille. Mutta vähemmän tunnettua on vertikaalinen malli ja teknologiset edut, että tämä vain muutama vuosi sitten syntynyt yritys on kärjessä.

Eksklusiivisessa haastattelussa Machine Heart keskusteli FancyTechin kanssa heidän tekemästään teknologisesta etsinnästä.

FancyTech julkaisee pystysuuntaisen videomallin DeepVideo

Kuinka murtautua alan esteistä?

Yleisesti ottaen, kun yleisen mallin nollakuvausyleistuskyky saavuttaa tietyn tason, sitä voidaan hienosäätämällä käyttää loppupään tehtäviin. Tällä tavalla myös monet suuret mallit tuodaan markkinoille tänään. Mutta todellisesta vaikutuksesta pelkkä "hienosäätö" ei voi vastata teollisten sovellusten tarpeita, koska kunkin toimialan sisällöntuotantotehtävillä on omat erityiset ja monimutkaiset standardinsa.

Yleinen malli saattaa pystyä suorittamaan 70 % rutiinitehtävistä, mutta asiakkaat todella tarvitsevat "pystysuuntaisen mallin", joka voi täyttää 100 % heidän tarpeistaan. Esimerkkinä kaupallinen visuaalinen suunnittelu. Aikaisemmin siihen liittyvät työt tehtiin ammattilaisten toimesta pitkällä aikavälillä, ja se piti suunnitella ja mukauttaa brändin erityistarpeiden mukaan, mikä vaati paljon manuaalista kokemusta. Verrattuna sellaisiin indikaattoreihin kuin estetiikka ja ohjeiden noudattaminen, "tuotekunnostus" on seikka, johon brändit kiinnittävät enemmän huomiota tässä tehtävässä, ja se on myös ratkaiseva tekijä, ovatko brändit valmiita maksamaan.

Kehittäessään itse pystysuoraa mallia kaupallisiin kuviin/videoihin FancyTech purki ydinhaasteen: kuinka saada tuote kunnostettua ja integroitua riittävästi taustaan, erityisesti luotuun videoon, jotta tuote liikkuisi hallinnassa ilman muodonmuutoksia. .







视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650930567&idx=1&sn=b5fc3170aa4c3be6701f2a21f8b4b8b3b393 0ef4b8ce1756e95c59a9dce6205478feea33a68b6a594d400cd0ac1b62e037f&token=2065772502&lang=zh_CN#rd

Nykyään suuren mallitekniikan kehittyessä sovellustasolla avoimen lähdekoodin tai suljetun lähdekoodin reitti ei ole enää ydinkysymys. FancyTechin vertikaalinen malli perustuu avoimen lähdekoodin taustalla olevaan algoritmikehykseen, jonka päälle on lisätty oma datamerkintä ja joka on koulutettu uudelleen, ja se vaatii vain muutaman sadan GPU:n jatkuvaan harjoitteluiteraatioon hyvien sukupolvien tulosten saavuttamiseksi. Sitä vastoin kaksi tekijää "tuotetiedot" ja "koulutusmenetelmät" ovat kriittisempiä lopullisen toteutusvaikutuksen kannalta.

Olettaen, että 3D-harjoitusdataa kerätään, FancyTech esitteli ajatuksen tilaälystä ohjaamaan mallin 2D-sisällön luomista.Erityisesti kuvasisällön luomiseen tiimi ehdotti "multimodaalista ominaisuuslaitetta" tuotteiden palauttamisen varmistamiseksi ja käytti erityistä tiedonkeruuta varmistaakseen tuotteiden ja taustojen luonnollisen integroinnin videosisällön luomiseen Taustalla olevat linkit, suuntasuunnittelukehys ja tietotekniikka, mikä mahdollistaa tuotekeskeisen videon luomisen.

True Dimensionality Reduction Strike: Miten "tilaäly" ohjaa 2D-sisällön luomista?

Ydinsyy siihen, miksi monien visuaalisen sukupolven tuotteiden tehot ovat epätyydyttäviä, on se, että nykyiset kuva- ja videomallit oppivat usein 2D-harjoitustietojen perusteella eivätkä ymmärrä todellista fyysistä maailmaa.

Tästä asiasta on päästy alalla yhteisymmärrykseen, ja jotkut tutkijat uskovat jopa, että autoregressiivisen oppimisen paradigman alla mallin ymmärrys maailmasta on aina pinnallista.

Kaupallisen visuaalisen generoinnin alajakotehtävässä ei kuitenkaan ole täysin ratkaisematonta parantaa mallin 3D-fyysisen maailman ymmärtämistä ja tuottaa paremmin 2D-sisältöä.

FancyTech on siirtänyt tutkimusideoita "tilaälyn" alalla visuaalisten generatiivisten mallien rakentamiseen. Yleisistä generatiivisista malleista poiketen spatiaalisen älykkyyden ideana on oppia useiden antureiden saamista alkuperäisistä signaaleista ja kalibroida tarkasti antureilla saadut alkuperäiset signaalit, jotta malli pystyy havaitsemaan ja ymmärtämään todellista maailmaa.

Siksi FancyTech käyttää lidar-skannausta perinteisen studiokuvauksen sijaan ja on kerännyt suuren määrän korkealaatuisia 3D-tietopareja, jotka heijastavat eroja ennen tuotteen integrointia ja sen jälkeen. Se yhdistää 3D-pistepilvitiedot 2D-tietoihin mallin harjoitustietoina parantaa mallin ymmärrystä maailmasta.

Tiedämme, että minkä tahansa visuaalisen sisällön luomisessa valo- ja varjoefektien muotoilu on erittäin haastava tehtävä. Elementit, kuten valaistus, valokappaleet, taustavalo ja valopisteet, voivat vahvistaa kuvan spatiaalista kerrostamista, mutta tämä on "tietopiste", jota on vaikea ymmärtää generatiivisille malleille.

Kerätäkseen mahdollisimman paljon luonnonvaloa ja varjodataa FancyTech rakensi jokaiseen ympäristöön kymmeniä valoja säädettävällä kirkkaudella ja värilämpötilalla, mikä tarkoittaa, että jokainen massiivinen datapari voidaan asettaa päällekkäin useilla valoilla ja eri kirkkaus- ja värilämpötiloilla. .



Tämä korkean intensiteetin tiedonkeruu simuloi todellisten kuvauskohtausten valaistusta, mikä tekee siitä paremmin linjassa verkkokaupan kohtausten ominaisuuksien kanssa.



Yhdistämällä korkealaatuisen 3D-datan keräämisen FancyTech on tehnyt joukon innovaatioita algoritmikehykseen yhdistäen orgaanisesti tilaalgoritmit kuva- ja videoalgoritmeihin, jotta malli pystyy ymmärtämään paremmin ydinobjektien ja ympäristön välistä vuorovaikutusta.

Harjoitteluprosessin aikana mallista voi "syntyä" jossain määrin ymmärrys fyysisestä maailmasta ja syvempää ymmärrystä kolmiulotteisesta tilasta, valon syvyydestä, heijastumisesta ja taittumisesta sekä eri medioissa toimivan valon tuloksista. ja erilaisia ​​materiaaleja tietäen, saavutimme lopulta "voimakkaan vähennyksen" ja "hyperfuusion" tuotetuissa tuloksissa.

Mitkä ovat "voimakkaan pelkistyksen" ja "hyperfuusion" takana olevat algoritmi-innovaatiot?

Yleisissä tuotekohtausten kuvien generointitehtävissä nykyinen valtavirran menetelmä käyttää pääosin tekstuureja tuotteen osien entisöinnin varmistamiseksi ja sitten toteuttaa kuvakohtausten muokkauksen Inpainting-tekniikalla. Käyttäjä valitsee muutettavan alueen ja syöttää kehotteen tai antaa viitekuvan, joka ohjaa tuotekohtauksen luomista. Tämän menetelmän fuusiovaikutus on parempi, että kohtauksen generointitulosten ohjattavuus ei ole riittävän selkeä tai liian yksinkertainen, eikä se voi taata yksittäisen lähdön korkeaa käytettävyyttä.

Vastauksena ongelmiin, joita ei voida ratkaista nykyisillä menetelmillä, FancyTech ehdotti patentoitua "multimodaalista ominaisuuslaitetta", joka poimii tuotteen ominaisuuksia useissa ulottuvuuksissa ja käyttää sitten näitä ominaisuuksia integroitujen kohtauskaavioiden luomiseen.



Ominaisuuksien purkaminen voidaan jakaa "globaaliin ominaisuuksiin" ja "paikallisiin ominaisuuksiin". käyttämällä graafin neuroverkkoja. Yksi graafisen hermoverkon suurista eduista on, että se pystyy poimimaan tuotteen kunkin avainpikselin tiedot ja avainpikseleiden välisen suhteen sekä parantamaan tuotteen sisällä olevien yksityiskohtien palauttamista.

Joustavien materiaalituotteiden sisällön luomisessa tällä menetelmällä saatu vaikutus paranee merkittävästi:



视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650930567&idx=1&sn=b5fc3170aa4c3be6701f2a21f8b4b8b3b393 0ef4b8ce1756e95c59a9dce6205478feea33a68b6a594d400cd0ac1b62e037f&token=2065772502&lang=zh_CN#rd

Kuviin verrattuna videoiden luomiseen liittyy myös itse tuotteen liikkeenhallinta ja sen tuomat muutokset valossa ja varjossa. Yleisissä videon sukupolven malleissa vaikeus on kyvyttömyys suojata itsenäisesti tiettyä videon osaa. Tämän ongelman ratkaisemiseksi FancyTech jakoi tehtävän kahteen osaan: "tuoteliikkeen luominen" ja "videokohtausten integrointi".

  • Ensimmäisessä vaiheessa FancyTech suunnitteli kohdennettuja liikkeensuunnitteluratkaisuja tuotteen liikkeen ohjaamiseksi näytössä, mikä vastaa tuotteen "kiinnitystä" jokaiseen videon ruutuun etukäteen;
  • Toisessa vaiheessa ohjattava videon generointi saadaan aikaan ohjausmoduulin kautta. Ohjausmoduulissa on joustava rakenne ja se on yhteensopiva eri arkkitehtuurien, kuten U-net ja DiT, kanssa, mikä tekee siitä helpon laajentaa ja optimoida.

Tietotasolla sen lisäksi, että FancyTechin ainutlaatuisia tuotetietoresursseja käytetään ohjauskoulutuksen ja tuotesuojauksen tarjoamiseen, lisätään myös useita avoimen lähdekoodin tietojoukkoja näkymän yleistyskyvyn varmistamiseksi. Koulutussuunnitelmassa yhdistyvät vertaileva oppiminen ja kurssioppiminen ja saavutetaan viime kädessä tavaroiden suojavaikutus.

Olkoon AIGC-aikakauden osingot

Vertikaalisesta mallista tavallisempiin ihmisiin

Olipa kyseessä "universaalinen" tai "pystysuuntainen", molempien reittien päätepiste on kaupallistaminen.

FancyTechin vertikaalisen mallin toteutuksen suorin hyötyjä on brändi. Aikaisemmin mainosvideon tuotantosykli saattoi kestää useita viikkoja suunnittelusta, kuvauksesta ja editoinnista. Mutta AIGC-aikakaudella tällaisen mainosvideon luominen vie vain kymmenen minuuttia, ja hinta on vain viidesosa alkuperäisestä hinnasta.

Massiivisen ainutlaatuisen datan ja alan osaamisen ansiosta FancyTech on saanut laajaa tunnustusta kotimaassa ja ulkomailla vertikaalisen mallin etujen ansiosta. Se on allekirjoittanut sopimuksia korealaisten kumppaneiden kanssa Lazadan kanssa. tunnettu sähköisen kaupankäynnin alusta Kaakkois-Aasiassa Yhdysvalloissa, se on suosinut paikallisia tuotemerkkejä kuten Kate Sommerville ja Solawave Euroopassa, se on voittanut LVMH Innovation Award -palkinnon ja on syvällistä yhteistyötä eurooppalaisten asiakkaiden kanssa.

Vertikaalisen ydinmallin lisäksi FancyTech tarjoaa myös täyden linkin automaattisen julkaisun ja datan palauteominaisuudet tekoälylyhyille videoille, mikä edistää tuotemyynnin jatkuvaa kasvua.

Vielä tärkeämpääPystymalli visualisoi polun suurelle yleisölle käyttää AIGC-teknologiaa tuottavuuden parantamiseksi.Esimerkiksi perinteinen valokuvastudio kadulla voi viedä FancyTechin tuotteiden avulla päätökseen liiketoiminnan muutoksen yksinkertaisesta muotokuvauksesta ammattitason kaupalliseen visuaaliseen materiaalituotantoon ilman ammattilaitteita ja ammattilaisia.



视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650930567&idx=1&sn=b5fc3170aa4c3be6701f2a21f8b4b8b3b393 0ef4b8ce1756e95c59a9dce6205478feea33a68b6a594d400cd0ac1b62e037f&token=2065772502&lang=zh_CN#rd

Nyt melkein jokainen voi ottaa videoita, äänittää musiikkia ja jakaa luomuksiaan maailman kanssa vain ottamalla kännykän käteensä. Kuvittele tulevaisuus, jossa AIGC vapauttaa jälleen yksilöllisen luovuuden...

Sen avulla tavalliset ihmiset voivat ylittää ammatillisia kynnysarvoja ja muuttaa ideoita helpommin todeksi, jolloin kunkin toimialan tuottavuus voi hypätä eteenpäin ja luoda uusia nousevia toimialoja Tästä hetkestä lähtien AIGC-teknologian tuomista ajoista tulee todella tavallisia ihmisiä.